Google 新研究:讓失語者在視訊會議時以手語自然交流

作者 | 發布日期 2020 年 10 月 09 日 0:00 | 分類 AI 人工智慧 , Google Telegram share ! follow us in feedly


視訊會議任何人都能用,也應該包括以手語溝通的用戶,但由於大多數視訊會議系統會自動追蹤講話者提示視窗,對使用手語者而言,很難輕鬆溝通。

因此視訊會議採用即時手語偵測就很有挑戰性,系統需要使用大量影片回饋分類匯入的資料,計算工作十分繁重。某種程度這些挑戰也導致很少有手語偵測的研究。

近日 ECCV 2020 和 SLRTP 2020 全球高峰會,Google 研究團隊提出即時手語偵測模型,並詳述模型如何用於視訊會議系統辨識「發言人」的過程。

▲ 以色列手語翻譯 Maayan Gazuli 示範手語檢測系統。

設計思路

為了主動搭配主流視訊會議系統的解決方案,研究團隊採取輕型、即插即用的模型,占用 CPU 小,以最大程度降低對用戶端通話品質的影響。為了減少匯入維度,採用從視訊分離所需資訊,分類每幀。

「由於手語包括用戶身體和手兩部分,我們先執行人體姿態估計模型 PoseNet,這樣可將匯入從整個高清影像大幅減少到用戶身體一小部分,如眼睛、鼻子、肩膀、手等關鍵特徵點(landmarks)。然後再將這些關鍵特徵點用於計算每幀光流(Optical Flow),不保留用戶特定資訊的前提下就能量化用戶姿態特徵。每個姿態都透過肩膀寬度統一,以確保模型在離鏡頭一定距離內注意到用戶手勢。最後,透過影片幀速率統一光流,再傳給模型。」

為了測試有效性,研究團隊採用德語手語資料庫(DGS),包含人體手勢的長片(含跨度註釋)。基於訓練好的線性回歸模型基線,使用光流數預測人體手勢何時發出。模型基線可達 80% 準確度,每幀僅需約 3μs(0.000003 秒)處理時間。透過將前 50 幀光流當作模型上下文,最終達到 83.4% 準確度。

團隊使用長短期記憶網路(LSTM)架構,可達成 91.5% 準確度,每幀處理時間約 3.5 毫秒(0.0035 秒)。

概念驗證

實際場景有了執行完備手語偵測模型僅為第一步,團隊還需要設計方法讓視訊會議系統的主動式揚聲器功能有用。團隊開發輕型級線上手語偵測示範 demo,可連到任何視訊會議系統,並將手語使用者設定為「發言人」。

當手勢偵測模型確定用戶正使用手語時,會透過虛擬音訊電纜傳遞超聲波,任何視訊會議系統都能偵測到,好像手語使用者正在「講話」。音訊以 20kHz 傳送,通常在人類聽覺範圍以外。視訊會議系統通常將音訊音量當成偵測是否正在講話的標準,而不是偵測是否有聲音,所以應用程式會誤以為手語使用者正在講話。

此模型影片示範原始碼已於 GitHub 公開。

示範過程

研究團隊示範如何使用模型。黃色圖表反映模型偵測到手語交流時的確認值。當用戶使用手語時,圖表值將增到接近 100,用戶停止使用手語時,圖表值降低至 0。

為了進一步驗證模型效果,團隊還進行用戶體驗回饋調查,要求參與者於視訊會議時使用模型,並像往常一樣以手語交流,還被要求互相使用手語,以偵測切換說話人功能。回饋結果是,模型偵測到手語,辨識為可聽見的語音,並成功辨識了手語參與人。

總結

目前來看,此次嘗試的出發點及過程採用的一系列方法可操作性,均基於實際使用為出發點,儘管應用時可能還會出現更多沒想到的用戶需求,如不同國家地區的手語有差異等問題。如何將這些功能做出來滿足更多族群,將是接下來這項工作在商業環境真正應用要積極思考的方向。

(本文由 雷鋒網 授權轉載;首圖來源:Created by Freepik