語音合成新進展,Facebook AI 系統能用比爾蓋茲聲音流暢說話

作者 | 發布日期 2019 年 06 月 20 日 12:08 | 分類 AI 人工智慧 , 尖端科技 follow us in feedly


鑑於近年來機器學習技術的巨大進步,人們已經看到許多影像、圖片上的發展,然而聲音的應用仍相對少見,以文本轉換語音的程式來說,即使是最好的系統仍聽起來十足具有「機器」味,但在 Facebook AI Research 打造出能再現人類語調的 AI 系統「MelNet」後,這樣的情況大概也維持不久了。

AI 在聲音上應用之所以少見並不是因為缺乏嘗試,就像圖像、影像一樣,許多團隊都曾使用大型數據庫來訓練深度學習演算法嘗試再現真實的語音,然而過去多數研究都使用聲音波形(waveforms)進行訓練,產生的 AI 在複製人類語調上表現往往不如預期,這也導致文本到語音系統的緩慢進展。

與多數研究者不同,Facebook AI Research 的 Sean Vasquez 和 Mike Lewis 選擇另闢蹊徑,不關注聲波圖而是採用聲譜圖(spectrograms)去訓練深度學習網路,Vasquez 和 Lewis 解釋,由於聲譜圖的時間軸比聲波圖更為緊湊,這意味著在波形中橫跨數萬個時間序列的相關性在聲譜圖中只相隔數百個,這使深度學習系統更容易獲得相關性。

「這也讓我們的頻譜圖模型能夠產生無限制的語音和音樂樣本,並且和原始樣本保持一致性」。

結果相當令人印象深刻。在使用 TED 原始演講內容訓練系統之後,MelNet 能夠在幾秒內重現 TED 講者的聲音說出一些話,團隊公布的所有例子可以前往此處查看,除了有對比爾蓋茲、李飛飛、珍古德等 TED 講者及資料庫中各種口音對象的模仿,團隊也讓 MelNet 模仿產生了片段音樂,成果相當驚人。

當然,MelNet 還是有其限制存在。雖然在簡短句子中聽起來就像本人,但人們在長時間演講時,經常會隨著內容演變改變語調來帶入情緒,但 MelNet 並不具備這種能力,除此之外, MelNet 雖然可以很快產生具可信度的短句,但它並無法產生更長的句子、段落或整個故事,而這也不是很快能夠達成的目標。

雖然在複製上有許多條件限制,但可想而見,MelNet 的出現將對未來的人機交互產生重大影響。像是總機、服務台這類型的工作,對話經常只涉及使用簡短的句子問答,類似 MelNet 的系統將可以讓機器以更像人類的方式自動化這些互動。

從另一方面來看,就像能模仿人類的許多其他 AI 技術,MelNet 未來被有心人士應用在「其他用途」上並不是太難想像的事,而一但這些 deepfake 技術互相結合,又會發生什麼事?

與往常一樣,AI 在模仿人類上的發展進步似乎提出了更多的道德問題,而不是答案。

(首圖來源:達志影像)

延伸閱讀: