Google 翻譯大突破:實現語音對語音的直接翻譯功能,並重現原講者聲音

作者 | 發布日期 2019 年 05 月 16 日 19:02 | 分類 AI 人工智慧 follow us in feedly


Goolge 翻譯是不少人日常生活的好用工具,但很少人知道它其實是好幾個工具組合起來的產品。

日常生活中要實現語音對語音翻譯,常要先語音辨識為文字 (Speech-to-Text,STT),再用機器學習將文字轉城目標語言文字,最後將文字「念出來」(Text-to-Speech,TTS)。這 3 段過程其實都需花時間做運算,每一步驟都有機會發生錯誤,使最終的翻譯成品出錯。Google 日前公布新的 Translatotron 翻譯模型,除了直接聲音對聲音的翻譯方式,節省翻譯時間,還能保留原講者的聲音。

Google 展示新的聲音對聲音翻譯流程,想要打破傳統三階段瀑布流方式的問題:時間長、每步驟會累積錯誤導致整體翻譯出問題。Translatotron 提出片段對片段的網路模型來處理資料,維持講者的聲音和韻律,並且提高翻譯內容準確度。

Google Research 表示,新的翻譯演算模型翻譯準確性,仍比不上傳統的瀑布流流程。但是新模式有運作更快的好處,還能避免機器產生語音時,生硬的機器音。

▲ Google Research 提出的 Translatotron 翻譯流程。 (Source:Google)

Translatotron 的技術部分有發表論文,詳細分享如何實作。有興趣的人,可以到 Google Research 的 GitHub 頁面體驗不同語音翻譯方式,還有 Translatotron 採用模式,比較實際翻譯的語音的差異。

(首圖來源:pixabay)