AI 耳機靠臉部肌肉輪廓「偷窺」表情,戴口罩也遮不住辨識準確率達 88%

作者 | 發布日期 2020 年 10 月 16 日 8:15 | 分類 AI 人工智慧 , 科技趣聞 , 穿戴式裝置 Telegram share ! follow us in feedly


當你用耳機聽歌時,有人已經開始用它表達情緒了。這聽起來有點神奇,不過真的達成了。最近有一款 AI 黑科技 C-Face 耳機,可在虛擬環境傳遞人的「喜怒哀樂」。

到底怎麼傳遞?先來看效果圖。

當你傳訊與朋友聊得正嗨,不用辛苦找表情符號,系統就會根據臉部表情自動傳送表情符號。

皺個眉頭也能一秒辨識,感覺聊天效率都變高了。

功能還不只這個,當你癱在沙發上聽音樂,懶得動卻想切歌或暫停,只需隔空說「Stop」或「Next Song」,播放裝置就會自動執行。

有網友可能會說,耳機的語音喚醒功能早不新鮮了,但 C-Face 並不是採用語音辨識技術,用戶只需動動嘴唇,無需發聲,系統就能自動辨識。

看到這裡,細心的網友可能已發現,不論情緒辨識和語音喚醒功能都有共同特點,即臉部肌肉移動。

C-Face 正是透過追蹤臉部肌肉的「臉部辨識」技術,辨識情緒或無聲語音指令。

「臉部辨識」AI 耳機

提到臉部辨識,大家可能再熟悉不過,很多智慧可穿戴裝置都有這項新技術。

但特別的是,C-Face 可說是最方便且功能強大。它沒有複雜的感測器裝置,也不限於只能辨識部分表情。

這到底是怎麼做到的?

C-Face 全稱 Contour-Face,是一款耳掛式可穿戴感測裝置,有耳塞式和頭掛式兩種。裝置均內建兩個微型 RGB 鏡頭,一種擷取紅色、綠色和光譜的數位相機。

當我們臉部出現表情時,會引發臉部肌肉伸縮,從耳朵角度看去,會使臉頰外輪廓產生變化。C-Face 內建的微型相機正是負責記錄配戴者臉輪廓變化。

至於效果如何,先看一組 3D 動圖。

雖然稍有延遲,但幾乎與配戴者唇形和表情一樣。

如果戴上口罩呢?畢竟口罩和耳機現在是出門標準打扮。但結果看來並沒有影響。

C-Face 能準確辨識臉部表情,是採用電腦視覺和深度學習模型。

微型相機擷取影像後,視覺技術和深度學習模型會重建。重建過程,捲積神經網路進一步將臉部特徵轉換為 42 個關鍵點,包括配戴者的嘴巴、眼睛及眉毛位置和形狀。

這些關鍵點將決定臉部情緒的種類。

C-Face 可將關鍵點辨識分成 8 種表情,如自然、生氣、親吻、大哭等,涵蓋愉快、中性及憤怒 3 種類別。另外 8 種表情也用來控制音樂裝置的播放選項,如「播放」、「下一首」或「音量增加」。其他用途還可能包括虛擬遊戲角色表達情感、幫助老師雲端授課時了解學生狀態等。

目前,情緒辨識效果已過實際測試。9 位參與者提供的資料,C-Face 的表情辨識準確度超過 88%,無聲語音準確度近 85%。

康乃爾大學出品,華裔教授參與研究

C-Face 黑科技產品出自康乃爾大學研究團隊,談起這項研究的初衷,負責人 Francois Guimbretiere 表示:

遠端上班或學習逐漸成為主流趨勢,希望利用最常用的耳掛式裝置,協助人們在虛擬環境無障礙交流、合作或表達情感。

從未來智慧互動與電腦介面實驗室(SciFi Lab)官網看來,這項研究的論文《C-Face:透過深度學習臉部外框重建表情》,將在 10 月 20~23 日舉行的電腦用戶介面軟體和技術研討會(UIST2020)發表。

論文作者還包括華裔教授張鋮,是康乃爾大學電腦與資訊科學學院助理教授,也是未來互動智慧電腦介面實驗室(SciFi Lab)負責人。

張鋮的研究方向是智慧感測系統與人機互動(HCI),就是研究如何收集有關人體及周圍資訊應用於各領域的現實挑戰,如智慧互動、健康感測和活動辨識等。

張鋮最先接觸此領域是在南開大學和中國科學院讀書期間,積累有形用戶介面、兒童人機介面、音樂介面等經驗。之後進入喬治亞理工學院就讀博士,研究十多種不同可穿戴裝置的匯入技術,涉及自下而上構建感測系統、物理建模、硬體原型設計、資料及演算法處理等。他已在人機互動和普適計算領域的頂級會議和期刊發表十多篇論文(包括兩座最佳論文獎),獲得超過 10 項美國和國際專利。

對 C-Face 裝置,張鋮表示還有局限性,如耳機的電池容量。團隊計劃開發更低功耗的感測技術,同時也會進行更多實際應用場景測試。

(本文由 雷鋒網 授權轉載;首圖來源:康乃爾大學