Google AI 「看」了幾萬部電影,為的是有一天能看穿人類的行為

作者 | 發布日期 2017 年 10 月 24 日 10:00 | 分類 AI 人工智慧 , Google , 軟體、系統 follow us in feedly

上週,AlphaGo 「終極版」AlphaGo Zero 再次讓世人驚訝,自學 3 天完勝李世乭、40 天登頂「世界圍棋冠軍」。



但這並不意味著人工智慧有能力取代人類,套用機器人界的一句話:

5 歲以上人類能做的事,機器人都能輕鬆勝任,但學會走路,辦不到。

簡單來說,要 AI 辨識人類的行為動作至今仍是難題,而 4 個月大的嬰兒就能辨識各種臉部表情了。

Google 正讓自家 AI 克服這個難題。最近 Google 發表了新的人類動作數據庫集體 AVA(atomic visual actions),可以精準標註影片中的多人動作,而其學習的對象則是來自 YouTube 大量的影片。

據 Google Research Blog 介紹,AVA 的分析樣本主要是 YouTube 的影視類影片。Google 先從這些影片收集大量不同的長序列內容,並從每個影片截取 15 分鐘,並將這些 15 分鐘片段再平均分成 300 個不重疊的 3 秒片段,同時採樣讓動作順序和時間順序保持一致。

▲ 3 秒片段邊界框標註範例,範例中只顯示一個邊界框。

接下來則需要手動標記每個 3 秒片段中間幀邊界框中的每個人,從 80 個原子動作(atomic action)中選擇合適的標籤(包括行走、握手、擁抱等)標註這些人物行為。

▲ sit

▲ watch

▲ kiss

Google 把這些行為分成 3 組,分別是姿勢/移動動作、人物交互和人與人互動。目前 AVA 已分析了 570,000 個影片片段,標記了 96,000 個人類動作,並生成 21,000 個動作標籤。

在 AVA 的數據分析中,會辨識每個影片片段的每個人物動作,也發現人類的的行為往往不單一。

統計至少帶有兩個動作標籤的人物數據,就可以分析人類不同動作一起出現的頻率,AVA 的文件稱之為共現模式(co-occurrence pattern) 。

從 AVA 數據可看到,打架和武術、親吻和擁抱、唱歌和彈奏樂器,這些都是比較常見的共現模式。

同時為了盡可能覆蓋更大範圍的人類行為,AVA 分析的電影或劇集,採用不同國家和類型的影片,這也可能是為了避免出現性別歧視和種族歧視。早在 2015 年,Google Photos 就曾因誤把兩名黑人標註為「大猩猩」(Gorilla)而備受詬病。

Google 還將對外開放資料庫,最終目的是提高 AI 系統的「社交視覺智慧」,進而了解人類正在做什麼,甚至預測人類下一步要做什麼。

當然目前距離這個目標還很遙遠,正如 Google 軟體工程師 Chunhui Gu 和 David Ross 介紹 AVA 的文章寫道

教會機器辨識影片中的人類行為,是發展電腦視覺的一大基本難題,但這對個人影片搜尋和發現、體育分析和手勢介面等應用至關重要。

儘管過去幾年在圖像分類和查找物體方面取得讓人激動的突破,但辨識人類行為仍然是巨大的挑戰。

雖然柯潔稱,「對 AlphaGo 的自我進步來說人類太多餘了」,可是人腦有 800 億個神經元細胞、100 兆個連接,AI 神經網路想達到大腦的認知水準絕非易事。

目前電腦視覺技術的發展也主要集中在靜態圖像領域。

(Source:Google

Google 從 2006 年開始用深度學習演算法代替人工辨識,Google Photos 現在已可辨識出貓狗的照片並自動分類。

▲ 從 a 到 b 分別是 Google Creatism 系統從街景圖到最終作品的全過程。(Source:Google

Google 的人工智慧實驗室 DeepMind 正利用人工智慧將 Google 街景圖製作成專業的攝影作品,其水準甚至已媲美專業攝影師。

而 iPhone X 的 Face ID 技術,也許會讓臉部辨識技術在智慧手機變得更普及。就連全球最大的色情網站 Pornhub,也宣布將引入人工智慧技術自主檢測網站成人影片的內容和表演者,讓 AI 演算法為成人影片內容和演員標籤分類。

(Source:The New Yorker

相比而言,電腦對人類動態行為的辨識要困難得多。最近《The New Yorker》新一期封面在美國社交媒體紅了起來,封面文章《黑暗工廠:歡迎來到未來機器人帝國》(Dark Factory)描述越來越多人類的工作被機器人取代。

雖然機器人能做的事越來越多,但文中也可看到機器人對很多看似簡單的工作依然無能為力,比如打開盒子和解開繩結。美國布朗大學人機實驗室的 Winnie 機器人前不久才剛學會了摘下花瓣。

而 Google 這次的人類動作數據庫集體 AVA,目前最直接的作用可能就是幫助 YouTube 處理和審核每天上傳的大量影片,同時也能更服務廣告主。

過去 Google 就曾因為無法精準辨識影片內容而吃大虧,《Wired》雜誌的一篇文章曾披露, Google 在影片植入廣告的自動系統,將一些廣告放在宣傳仇恨和恐怖主義的影片旁邊,已讓沃爾瑪和百事可樂等大客戶放棄 Google 的廣告平台。

對 90% 收入來自廣告業務的 Google 來說,這問題當然不能怠慢。之前 Google 主要聘請一大群臨時工監測和標記各種影片內容,並以此為 AI 的訓練數據。

這樣的做法除了需要高昂的人力成本,也有觀點認為這些臨時工不穩定的工作狀態和與 Google 的缺乏溝通,會影響到 AI 辨識的精確度。

由此可見,如果 Google 這個 AI 的學習能力夠強,那不久的將來,這些臨時工也將統統失業。這項技術的應用當然也不局限於此。

隨著 AI 對人類認知越來越深,對於人工智慧倫理的討論也許會變得更激烈。

(本文由 愛范兒 授權轉載;首圖來源:Google

延伸閱讀:

關鍵字: , , ,