AI 對話更像人類,NVIDIA 打造高仿真語音合成模型

作者 | 發布日期 2021 年 09 月 01 日 11:17 | 分類 AI 人工智慧 , GPU , 軟體、系統 Telegram share ! follow us in feedly


NVIDIA 正打造更強大智慧的 AI 語音對話模型,並於 INTERSPEECH 2021 大會展示成果;這些模型有助銀行和零售商自動語音客服,也能讓電玩遊戲或書籍角色更生動,並即時為數位分身加上合成語音。

原本的自動電話語音和已經發展數十年的 GPS 導航系統都只能發出生硬的機器合成聲音,AI 卻讓智慧手機和智慧音箱虛擬助理呈現逼真語調。不過 AI 合成的聲音和日常對話及媒體聽到的真實人聲還是有差,原因在於人類說話時帶有複雜的節奏、音調和音色,很難以 AI 重現。

因此 NVIDIA 研究人員正在打造高品質、可控制的語音合成模型與工具,能捕捉人類說話聲的豐富細節,又不會聽起來人工感很重。不僅如此,表達性語言合成只是 NVIDIA Research 團隊對話式 AI 研究之一,這領域還包括自然語言處理、自動語音辨識、關鍵字偵測、音訊增強等。這項先進研究成果的部分內容已透過 NVIDIA NeMo 工具套件成為開放原始碼,可在 NGC 容器及其他軟體中心取得,並經最佳化調整,能在 NVIDIA GPU 高效執行。

使用 NeMo 易用 API 和訓練好的模型,協助研究人員開發和自訂用於文字轉語音、自然語言處理及即時自動語音辨識的模型。許多模型已在 NVIDIA DGX 系統使用超過十萬小時開源資料集完成訓練,開發人員可按照需要的應用場景,在 NVIDIA Tensor 核心 GPU 以混合精度運算微調任何模型。

另外,NVIDIA NeMo 還藉由 NGC 提供 Mozilla Common Voice 訓練的模型,Mozilla Common Voice 資料庫有 76 種語言、近 1.4 萬小時群眾外包語音資料。這項由 NVIDIA 支持的專案企圖以全球最大規模的開放數據語音資料庫,讓更多人接觸語音技術。

NVIDIA 強調,此 AI 模型不只可用於配音,文字轉語音的功能還能用在遊戲、協助聲音機能或語言機能障礙者,或幫助使用者用自己的聲音翻譯不同語言;甚至還能重現歌手表演,不僅可配合歌曲旋律,還能配合表達人聲背後的情感。

(首圖來源:NVIDIA