中國 AI 另類經濟,廉價人工湧向數據標籤公司

作者 | 發布日期 2018 年 12 月 28 日 11:57 | 分類 AI 人工智慧 , 中國觀察 , 人力資源 follow us in feedly


傳統觀點認為,採用更先進的技術,那些從事低技術工作的人將成為最大受害者,學術研究大多支持這一點,但這並不代表技術必然會取代所有工作,譬如 AI 需要大量數據來學習和辨別模式,要教授演算法如何準確辨識蘋果是一個蘋果,它需要成千上萬的蘋果圖片,而這些數據無論是照片、影片或聲音檔都需要有人做貼標籤的工作,由此催生中國內陸城市誕生許多小型數據貼標公司。

據 VICE Media 旗下網站 Motherboard 報導,這些從事數據貼標的人每天坐在電腦前 8 小時,點擊幾十張照片,根據客戶要求的規格,標示背景、前景和特定物品,有些人可能會標記醫療掃描檔案,有些人標示風景和樹木照片,有些人標示無人駕駛車輛的道路圖片。這是讓 AI 演算法學習看數據的基礎教材,AI 產業發展仍然需要仰賴這種廉價的人工,因為演算法和機器學習在很多情況下都是由人來訓練。

這是中國 AI 蓬勃發展的冰山一角。去年風險資本家向中國 AI 新創公司投入 50 億美元,超過美國。中國政府已將該領域做為優先事項,並宣布到 2030 年將投入 1,500 億美元。AI 也是中國製造 2025 中列出的十大重點產業之一。中國也是現在是世界上最有價值的 AI 公司商湯科技的所在地,商湯科技專注臉部和圖像識別,並與全國各地的地方政府合作進行監控,據研究公司 CB Insights 稱,商湯科技估值高達 45 億美元。

而風光的 AI 公司幕後推手也包括上述這些勞動密集型數據標籤企業,這些企業為演算法提供和處理大量數據。許多中國年輕人正湧向數據標籤產業,報導訪問一家有 100 多名員工,設在河南鄭州的數據標籤公司老闆表示,雖然標籤工作是相當低級別的工作,但進入門檻相對較低,而且仍然是 AI 產業,「如果可以從這裡開始,我們可以慢慢地,一步一步地走向更高價值的東西。」

數據貼標者的月工資從 2 千人民幣到 4 千人民幣不等,與中國工人的平均可支配收入或稅後帶回家收入相當,2017 年為 2,164 人民幣。

現在 AI 照片辨識教學的標準是使用 ImageNet 的圖像,這是一個由史丹佛大學教授李飛飛和她的團隊創建的超過 1,400 萬張圖像的資料庫,該資料庫根據亞馬遜的 Mechanical Turk,Mechanical Turk 將勞動密集型任務以一張圖幾美分價錢外包給網路用戶。

隨著 AI 應用愈來愈多,ImageNet 和 Mechanical Turk 證明是不夠的,譬如辨識醫療圖像需要非常詳細的要點,才能幫助 AI 了解差異,由於一般 AI 公司只有少數幾個數據科學家,需要大量的體力勞動,無法指望那些薪水如此高的人從事這項勞動密集型工作,所以這項工作必須外包。

標籤工作也擴展到圖片之外,聲音識別、影音標籤甚至原始數據都是一門生意,譬如河南的公司幫一家客戶收集當地講方言的兒童語音。但是任何一個低技術勞力工作最有可能被時代淘汰,當有一天演算法學會自己識別事物時會發生什麼事,這些數據標籤公司的老闆並不擔心這個,還說「如果它真的處於那個階段,那麼也許人類將不再活著」。

(首圖來源:Flickr/Maxime Guilbot CC BY 2.0)