DeepMind 技術加持，Google 用 AI 改善 Duo 通話遺漏

隨著 4G、5G 通訊技術漸漸發展，網路通話越來越盛行。但網路不穩是常態，所以通話時我們不時可能蹦出一句，「你能再講一遍嗎？剛剛網路好像不穩沒聽到。」

為了提高通話品質，Google 近期在視訊聊天應用 Duo 啟用新技術 WaveNetEQ，出現音訊遺失時，會判斷遺失的音訊資料可能是什麼並替代，背後技術支援來自 Google 旗下聲名在外的 DeepMind 團隊。

（Source：Google）

完整的線上通訊，資料經常分成多塊，每塊就是一個封包 packet。然而封包從傳送方傳到接收方的過程，通常不會依序到達，會產生音訊抖動、重疊等問題，或直接遺失，造成音訊空白。

Google 資料顯示，Duo 99% 通話都有封包遺失、過度抖動或網路延遲。20% 通話遺失超過 3% 音訊，10% 通話丟包率超過 8%，也就是說每次通話都有很多音訊需要替代。

每個視音訊 App 都會用某種方式處理丟包。Google 表示，封包遺失隱藏（PLC）過程可能很難填補 60 毫秒或更長的空白。過去常用演算法是 NetEQ，是 webRTC 音訊技術的兩大核心技術之一（另一核心技術是音訊前後處理，包括 AEC、ANS、AGC 等）。webRTC 由 Google 收購 GIPS 再開源，是目前影響力極大的即時音視訊通訊解決方案，但用它處理丟包，大多情況下聽起來像機器人或機械重複音。

Google 以大量語音資料訓練基於 DeepMind WaveRNN 技術的 WaveNetEQ 模型。訓練資料集來自 100 多名、48 種不同語言的志願者，也就是說可自動填補 48 種語言遺失情況。

WaveNetEQ 是用於語音合成的遞迴神經網路模型，由兩部分組成，即自回歸網路（autoregressive network）和條件網路（conditioning network）。自回歸網路的作用是保持訊號平穩流動，條件網路控制和影響自回歸網路以保持音訊一致性。

Google WaveNetEQ 取代原來的 NetEQ PLC 套件，相對於 NetEQ，音質方面無疑有提升，且 WaveNetEQ 模型跑得夠快，可在手機執行，如此也能避開用戶擔心的資料隱私問題。Google 稱所有處理都是在裝置進行，因 Duo 的通話預設就是端到端加密。一旦通話音訊恢復，將無縫切換到現實對話。

不過，WaveNetEQ 替代的內容和時長有限制。目前支援 120 毫秒內空白，之後會逐漸消失並歸零；WaveNetEQ 不是生成完整單詞，而是簡單音節。

目前 WaveNetEQ 已應用到 Pixel 4 手機的 Duo App，Google 表示，正將之推廣到其他 Android 手機。