Google 新研究：讓失語者在視訊會議時以手語自然交流

視訊會議任何人都能用，也應該包括以手語溝通的用戶，但由於大多數視訊會議系統會自動追蹤講話者提示視窗，對使用手語者而言，很難輕鬆溝通。

因此視訊會議採用即時手語偵測就很有挑戰性，系統需要使用大量影片回饋分類匯入的資料，計算工作十分繁重。某種程度這些挑戰也導致很少有手語偵測的研究。

近日 ECCV 2020 和 SLRTP 2020 全球高峰會，Google 研究團隊提出即時手語偵測模型，並詳述模型如何用於視訊會議系統辨識「發言人」的過程。

▲ 以色列手語翻譯 Maayan Gazuli 示範手語檢測系統。

設計思路

為了主動搭配主流視訊會議系統的解決方案，研究團隊採取輕型、即插即用的模型，占用 CPU 小，以最大程度降低對用戶端通話品質的影響。為了減少匯入維度，採用從視訊分離所需資訊，分類每幀。

「由於手語包括用戶身體和手兩部分，我們先執行人體姿態估計模型 PoseNet，這樣可將匯入從整個高清影像大幅減少到用戶身體一小部分，如眼睛、鼻子、肩膀、手等關鍵特徵點（landmarks）。然後再將這些關鍵特徵點用於計算每幀光流（Optical Flow），不保留用戶特定資訊的前提下就能量化用戶姿態特徵。每個姿態都透過肩膀寬度統一，以確保模型在離鏡頭一定距離內注意到用戶手勢。最後，透過影片幀速率統一光流，再傳給模型。」

為了測試有效性，研究團隊採用德語手語資料庫（DGS），包含人體手勢的長片（含跨度註釋）。基於訓練好的線性回歸模型基線，使用光流數預測人體手勢何時發出。模型基線可達 80% 準確度，每幀僅需約 3μs（0.000003 秒）處理時間。透過將前 50 幀光流當作模型上下文，最終達到 83.4% 準確度。

團隊使用長短期記憶網路（LSTM）架構，可達成 91.5% 準確度，每幀處理時間約 3.5 毫秒（0.0035 秒）。