微軟有限開放自家「自訂神經語音」技術,AT&T、華納及 Duolingo 一試成主顧

作者 | 發布日期 2021 年 02 月 06 日 0:00 | 分類 AI 人工智慧 , Microsoft Telegram share ! follow us in feedly


微軟(Microsoft)已對外有限開放名為「自訂神經語音」(Custom Neural Voice)的文字轉語音(Text-to-Speech, TTS)AI 人工智慧技術,該技術允許開發人員創建自定義合成語音。該技術是名為 Speech 之 Azure AI 服務的一部分。企業可以將該技術用於諸如語音驅動的智慧助理和裝置、聊天機器人、線上學習,乃至於閱讀有聲讀物或新聞之類的事情。企業必須先向微軟申請存取權限並獲得批准,然後才能使用 Custom Neural Voice 技術。 

微軟表示,該技術可以提供比許多其他文字轉語音服務聽起來更自然的語音。自訂語音使用許多聲音或音位( Phoneme)來建立語音字型(Voice Font)。Custom Neural Voice 使用多個神經網路來嘗試確保韻律(每個音位的音調和音長)和發音正確。這有助於該 AI 能正確模仿演員的聲音或使用逼真的合成聲音。

包括 AT&T 和華納兄弟在內的多家公司已在使用這項技術。他們最近在美國達拉斯的 AT&T 體驗店安裝了一個系統,可讓人們與知名華納卡通人物兔寶寶(Bugs Bunny)進行互動。透過 Custom Neural Voice、AR 擴增實境和 5G 的整合,兔寶寶可以與顧客即時聊天並在商店中移動,以幫助顧客找到隱藏的金胡蘿蔔。

目前為兔寶寶配音的演員 Eric Bauza,在微軟的協助下錄製了 2,000 多個台詞和片語,以建立語音字型。華納兄弟和微軟聯手打造了一種符合角色個性與音調變化的自訂語音。語言學習平台 Duolingo 也使用 Custom Neural Voice 建立許多古怪的角色來幫助人們學習新語言,同時美國保險業巨擘 Progressive 也在自家 Flo 聊天機器人身上新增了這項技術。

(首圖來源:Youtube