Facebook 的智慧聊天裝置雖不熱銷,但背後 AI 不容小覷

作者 | 發布日期 2019 年 02 月 19 日 8:00 | 分類 AI 人工智慧 , Facebook , 軟體、系統 line share follow us in feedly line share
Facebook 的智慧聊天裝置雖不熱銷,但背後 AI 不容小覷


承認吧,每次開啟視訊聊天,我們總得花上至少 1 分鐘調整位置,才能確保大家不是盯著對方的雙下巴和大鼻孔。

從這個角度來看,Facebook 去年 10 月發表的智慧聊天裝置 Portal Plus 提供的解決方案頗為創新。

簡單來說,Portal Plus 採用的智慧鏡頭可自動追蹤用戶,確保你不會走出可視範圍,且還會根據用戶離裝置的實際距離來調整音量。也就是說,即使你聊天聊到一半,忽然起身去房間另一頭拿東西,對方也不會因此看不到或聽不清楚你講話。

這種體驗,就像有攝影師專門在拍你。實際上,為了達到這個效果,Facebook 的工程師的確找來好萊塢專業攝影師諮詢學習。

和很多智慧手機的相機演算法不同,Portal 背後的演算法追蹤的不是人臉,而是人的姿勢和動作。

早在 2017 年,Facebook 的人工智慧團隊就已建立一套名為 Mask R-CNN 的計算機視覺模型,可追蹤人類 2D 動作姿態。Portal 將這套演算法精簡優化至小型行動裝置晶片也能跑的 R-CNN2Go 模型。

在這個階段,雖然鏡頭已懂得跟人走,但影像看起來還是「僵硬又死板」,於是 Portal 團隊找來好萊塢外援──攝影師、電影攝影技師和紀錄片製作人,一方面學習廣泛接受的攝影「基本功」,另一方面,拋出在家聊天情景下可能遇到的刁鑽角度,看看專業人士會如何處理。

我覺得團隊算是成功讓鏡頭拍出比較成熟的構圖,就是那種得有點技術、以及對人的行為有了解才能做的決策。

Rafa Camargo ,她是 Facebook 硬體業務副總裁,同時也是 Portal 計畫的負責人。加入 Facebook 之前,Camargo 是 Google 創新部門 ATAP(Advanced Technologies and Projects)的成員。

對發展人工智慧來說,「自然」這個標準門檻其實很高,因為那意味著機器(或背後的工程師)找到了讓模擬成果「像人」的關鍵。

2018 年的 Google I/O 大會,打電話到理髮店預約的 Google Assistant 曾以語氣詞「Mm-Hmm」驚豔全場,而現在的 Portal,則借用好萊塢培養好觀眾的觀影習慣來打造「自然」感。

這給人的感覺很自然。其實他們在電視和電影採用這種構圖,也是因為在這些年裡,大家發現這就是人類大腦喜歡的方式。

除了要做到「自然」,Portal 團隊在設計模型時還做了一些很有意思的選擇題。

譬如:一家人和奶奶視訊聊天,突然間,孩子從媽媽懷抱裡跳起來,開始到處跑,最後還跑到很暗的角落。這樣的情況下,Portal 要不要繼續追蹤孩子呢?

有人從偏理性角度出發,覺得如果小孩跑太快,追蹤他會讓畫面效果不好,所以還是別拍小孩了。但當 Portal 團隊詢問奶奶類用戶這問題時,大部分人都說,用視訊聊天大多只為了見見鏡頭另一邊的人,尤其是孩子。

Portal 團隊最後還是為用戶留下手動控制權,他們既可用自動模式跟拍所有進入鏡頭的人,或選擇專注在特定人身上,忽略其他人。

雖然在這裡,Portal 將選擇權交給用戶,但我們不能忽視的是,現在一些智慧手機的相機甚至視訊聊天會默認「美顏」,用戶看不到「原始模樣」;而 Netflix 這類串流媒體服務也默認只提供「推薦內容」,想看「原始」的完整列表還要「祕密代碼」

這些演算法服務的本質,是用戶「繳械」了選擇權,很多時候這不止於決策權,同時還有獲取「原始」內容的權利。

也許這也是為什麼,當談論到人工智慧服務,「信任」是用戶選擇服務方的關鍵之一。

這不僅牽涉隱私權,還關乎我們讓誰為我們選擇。經過過去兩年種種醜聞,Facebook 這個名字成為 Portal 尚未熱銷的主要原因,同時,這個名字也讓一般人對安全性特別敏感。

無可否認的是,Facebook 在 Portal 背後的演算法對視訊聊天體驗的確帶來全新提升,或只需要換個名字,它就能紅起來。Facebook 團隊也有計劃將 R-CNN2Go 這套模型推廣到手機應用等產品。多項調查指出,大部分美國人都不知道 Instagram 和 WhatsApp 是 Facebook 的。

(本文由 愛范兒 授權轉載;首圖來源:Portal

延伸閱讀: