Tumblr 奪老司機「珍愛」,AI 除黃計畫難度高

作者 | 發布日期 2018 年 12 月 07 日 7:45 | 分類 AI 人工智慧 , 數位內容 , 社群 follow us in feedly

12 月 5 日是各位老司機、福利姬的末日,因美國名社交分享網站 Tumblr 當天突然推出新的政策──Tumblr 將全面禁止任何成人內容,新規定於 17 日正式施行。



這不是天經地義的事嗎,有何大驚小怪?

和多數人心中的「和諧社群」定義不同,新規定發表之前,Tumblr 這個以年輕人為中心的社群網路平台以收容大量色情內容(主要為文章、靜態圖和 gif 圖)聞名全球。

▲ Tumblr 截圖。

Tumblr 創始人 David Carp 曾表示,色情相關內容占網站流量 2~4 個百分點。2012 年,一份當月刊發的義大利研究報告顯示,這數字迅速增長,甚至有近半網友遇過避無可避的成人內容,對此評論 Tumblr 沒有回應。

時至今日,雅虎旗下這家社交網站,儘管只有超出 0.1% 帳號出產色情內容,但卻有 22% 甚至更多用戶關注、點讚、轉寄上述帳號的發文。有研究指出,正是這種「分享」行為,導致另外 28.5% Tumblr 用戶無意中接觸到色情內容。

俗話說得好,常在河邊走,哪有不濕鞋?

就在兩週前,蘋果將 Tumblr App 從 App Store 移除,原因是偵測和移除兒童色情的自動化系統故障。從類別來看,儘管 Tumblr 也能看到類似天文地理歷史科學的各種「小清新」內容,但相比前者來說只是冰山一角罷了。

至此,Tumblr 啟動 AI 除黃計畫,並鄭重表示要將成人內容「趕盡殺絕」。

AI 除黃靠譜嗎?

Tumblr CEO Jeff D’Onofrio 聲明表示,Tumblr 的 AI 除黃計畫並不是禁止裸體政治抗議或大衛雕像。這要求 AI 具備極強的成人內容辨識能力,同時也依靠人類幫助訓練和控制系統。

簡單來說,Tumblr 希望打造可辨識裸體但又不會將裸體雕像誤認為成人內容的人工智慧系統。儘管這對人來說是一件再簡單不過的事,但對 AI 來說可是難度達到「雞蛋裡挑骨頭」等級。

▲ 換做你是 AI,看到這種場景有沒有想罵人的衝動?

說到這裡,想必會有人問:「Why?」

實際上,AI 辨識影像的過程分為資訊抓取、前處理、特徵抽取;選擇、分類器設計;分類決策三大塊。第一部分,AI 將圖片特徵點取出來,並透過符合資料庫獲得屬性,並最終生成判定。

也就是說,除了成人內容相關的敏感辭彙、特徵點抓取,想讓 AI 區分真人與雕塑就需要在此基礎上再符合特徵點的材質等特性。難點在於,初期 AI 只能按照指定幾個「標籤」分析圖片類別,對圖片物體是肉體還是大理石、是塑膠還是泡沫……這種問題無法精確分析。

簡單的智慧系統更無法像人立刻在隨機圖片找到哪些標籤應該衡量,哪些不值得衡量。將這問題對應 Tumblr 的除黃計畫,解決問題的唯一辦法就是盡可能全面地抓取圖片、文字的特徵,這對系統而言必將承受巨大負荷。

▲ 特徵點辨識。

如何避免這樣的惡性循環?Tumblr CEO Jeff D’Onofrio 表示,公司不斷增加投資推動此政策,包括符合產業標準的機器監控、不斷壯大的人類仲裁團隊及便於舉報濫用行為的用戶工具。透過讓更多用戶及相關人員參與,Tumblr 希望人工智慧的學習能力能逐步培養成 AI 除黃系統,獲得精準的篩選能力。

除了人工合作,針對以上問題雷鋒網曾在《世界最大黄网要用 AI 「鉴黄」,还号称要让鉴黄师下岗》文章向圖普科技營運總監姜澤榮提出疑問,他的回答是:「如果是一支 1.5 小時的影片,一秒一張截圖,上述數量影片的基礎上足以訓練出效果尚可的模型。」

由此來看,儘管 Tumblr 辨識物件是圖片和文字,但對此量級的社交網站(也不只這家在做類似的事)來說,訓練出「可用」的 AI 除黃系統自然不在話下。

對 Tumblr 來說任重而道遠

既然不在話下,為啥還任重道遠?

從目前效果來看,儘管聲明 Tumblr 明確提出會著重訓練 AI 在性取向言論和色情內容方面的篩選能力,以便避免前者被認為是不當內容螢幕蔽掉。但有回饋稱被錯誤禁止的內容甚至包括加菲貓的圖片、蝙蝠俠吃法蘭克福的圖片和英國名廚戈登‧拉姆齊拿著一塊米糕並稱之為「隆胸」的圖片。

▲ AI:嗯,這隻喵長得灰常兒童不宜,屏蔽!

紐約自由攝影師羅拉‧湯普森表示,不得不手動申訴團隊解鎖這些圖片,雖然他貼的標籤確實是「色情」(如「食品色情」),但顯然和色情無關。

從成本方面看,Tumblr 的社交網站屬性讓內容量源源不斷,這就需要 AI 除黃系統具備強大的 GPU 運算能力,高速端對端影像處理速度及較高頻寬標準。雷鋒網文章曾提到:「算力方面,原本千萬等級的樣本在 GPU 為單機單卡情況下訓練時間要接近一個月,僅 1 萬張圖片常只有一張色情圖,為了辨識這張圖片,AI 掃描的成本即為 1 萬次。」由此可見,AI 除黃確是費錢費力的大工程。

從風險係數看,AI 除黃計畫執行同時也伴隨各種其他風險。首先,針對用戶屬性的 AI 除黃師必須要盡量全面抓取用戶在平台的各類資料,誰都無法擔保這些資料最終會流向何處(儘管每家都說「我們絕對安全」)。

月 16 日,Facebook 被曝在 2014 年有超過 5 千萬用戶資料遭「劍橋分析」公司非法傳送政治廣告,此次事件曝光後,Facebook 一天內市值蒸發 60 億美元。儘管直到目前 Facebook 仍因此事深陷動盪中,但 CEO 馬克祖克柏卻在多次聽證會否定公司有意侵犯用戶隱私並參與相關交易。

真相浮出水面之前我們不知道真相究竟是什麼,但這足以證明──當你嘗試開始收集並利用用戶資料達成某些目的時,一旦出事,即使你渾身都是嘴巴也難洗白。

短期效果、長期成本及風險係數,對 Tumblr 來說,AI 除黃系統不同於某成人影片網站,除了有效篩選成人向內容,還要從中將正常性談論篩選出來建議給大家,如果為做這件事的難度打分數,我給五顆星!

可見,Tumblr 的 AI 除黃計畫的確任重而道遠,現在我們看到的僅是一條規定,一切將在 12 月 17 日分曉。

(本文由 雷鋒網 授權轉載;首圖來源:shutterstock)

延伸閱讀: