很多人見識過有心人用 Deepfake 技術合成超逼真假影片的能耐,如今 AI 深度學習技術又進一步模擬特定人物聲音展現強大威力。5 日微軟研究人員宣布推出 VALL-E 全新文字轉語音(Text-to-Speech)AI 人工智慧模型,只要餵給它某人 3 秒鐘音訊,模型就能模擬出聲音、語調及情緒講出任何話。
VALL-E 是「神經編碼解碼器語言模型」(Neural Codec Language Model),基於 Meta 2022 年 10 月宣布的 EnCodec 技術打造。VALL-E 從文字與聲音提示產生個別音訊編碼解碼器程式碼,與一般透過操控波形合成語音的常見文字轉語音法不同。新模型主要分析人如何發音,並透過 EnCodec 將資訊分解成稱為「標記」(Token)的個別元件。
▲ 微軟VALL-E模型架構圖。(Source:GitHub)
最令人驚訝的是,模型會使用訓練資料與「學會」的聲音比較,用 3 秒範例音訊聲調念出範例音訊以外字句。換言之,它可從網路擷取特定人物 3 秒鐘說話聲,就可學會其語調講天馬行空的話。
為了讓 VALL-E 學會語音合成能力,微軟使用 LibriLight 音訊庫訓練,內含 7 千多人約 6 萬小時說話內容。VALL-E 範例網站,微軟提供數十個 AI 模型執行範例音訊,提供 VALL-E 必須模擬學習的 3 秒鐘說話者提示音訊,以及同說話者說特定字句的對照音訊等。
連聲音、語調甚至環境音都能模擬,恐成 Deepfake 後詐編利器
神奇的是,VALL-E 不但能用某人說話方式、聲調及情緒模仿他人說話,甚至還可模擬範例音訊的背景「聲音環境」(Acoustic Environment)。換言之,如果範例音訊來自電話講話內容,模型會在合成輸出模擬講電話的聲音與頻率屬性,一聽就知道是在講電話。
可見 VALL-E 應用層面很廣,如高品質文字轉語音應用開發、語音編輯及音訊內容創建等。所謂語音編輯是指某人錄音可轉成逐字稿編輯和更改,也就是用某人聲音念逐字稿。至於音訊內容創建,可搭配 GBT-3 等 AI 模型做到。
見識 VALL-E 的能耐後,讓人不免想到「誤入歧途」的 Deepfake,所以此模型也很有可能淪為有心人開始網路惡作劇或詐騙攻擊的利器。微軟特別開發出區分音訊是否來自 VALL-E 合成的檢測模型,微軟還制定 AI 原則,嚴格限制任何 VALL-E 實作必須遵循該準則,以避免遭惡意濫用險。
(首圖來源:PAI)