以 DeepMind WaveNet 技術為基礎,Cloud Text-to-Speech 服務正式推出

作者 | 發布日期 2018 年 03 月 29 日 14:00 | 分類 AI 人工智慧 , 軟體、系統 follow us in feedly

許多 Google 產品(像是 Google Assistant、Google 搜尋、Google 地圖等)都內建了高品質的 Text-to-Speech 服務,可以產生如人聲般自然的發音。Google 收到許多開發者的意見,表示希望能將 Text-to-Speech 的服務結合到他們的應用程式中,所以 Google 特別將這項 Cloud Text-to-Speech 技術加入 Google 雲端平台(Google Cloud Platform,GCP)中。



使用者可以將 Cloud Text-to-Speech 服務運用在不同的情境中:

  • 為電話語音服務(Interactive Voice Response,IVR)中心提供語音回應系統,並啟用即時自然語言對話功能。
  • 與物聯網設備,如電視、汽車、機器人等進行對話。
  • 將文字格式的媒體內容(如新聞文章、書籍)轉為口語形式(如Podcast、有聲書)。

Cloud Text-to-Speech 服務提供了 12 種不同語言中的 32 種不同聲音供使用者選擇。即使是複雜的文字內容,例如姓名、日期、時間、地址等,Cloud Text-to-Speech 服務也可以立刻發出準確且道地的發音,並支援多種音檔格式,包含 MP3 和 WAV 等,不僅如此,使用者還可以自己調整音調、語速和音量。

Text-to-Speech 服務結合 DeepMind 技術

Google 也很開心宣布,Cloud Text-to-Speech 服務更以 DeepMind 所建構的原始音檔生成模型 WaveNet 為基礎,透過運用 WaveNet 將一系列高保真度的聲音轉化為語音。整體而言,WaveNet 可以合成並產出更自然的語音細節,而且相較於其他 Text-to-Speech 技術所產生的語音內容,WaveNet 所產出的語音內容也更受使用者喜愛。

在 2016 年底,DeepMind 推出了第一版的 WaveNet,透過神經網路架構來訓練大量的語音樣本並創造原始音頻的波形。在訓練過程中,神經網路會擷取語音的基本架構,像是語調的連接和語音波形的形狀等。當輸入特定的文字內容時,經過訓練的 WaveNet 模型會產生相對應的語音波形,藉由一次產生一個樣本的方式,達到比其他方法更高的準確度。

現在,Google 使用的運行於 Google 雲端 TPU 基礎架構上的更新版 WaveNet。全新且升級的 WaveNet 模型所生成的原始音頻波形,比原本的模型快了 1,000 倍,而且只需 50 毫秒即可生成一秒鐘的語音訊息。事實上,這個新模型不僅更快速而且具有高保真度,且每秒能創造出 24,000 個音頻波形的樣本。為了製作出更好、更擬真的音質,Google 也將每個樣本的解析度從 8 位元提高到 16 位元。

藉由上述調整,新的 WaveNet 模型可以製作出更自然的語音訊息。在測試過程中,使用者在 1 到 5 級的平均意見分數(Mean-opinion-score,MOS)量表中,給予新版美式英文 WaveNet 語音 4.1 的高分,其中有超過 20% 的人認為比標準的人聲更好,而超過 70% 的人肯定它能降低人類語言的隔閡。由於 WaveNet 音訊僅需較少錄製音頻,就能製作出高音質模型,因此 Google 預計在未來幾個月內,將持續改善 WaveNet 音訊的多樣性與品質,並提供給雲端客戶使用。

Cloud Text-to-Speech 已經協助很多 Google 的客戶,像是思科(Cisco)和 Dolphin ONE,提供更好的終端使用者體驗。

有了 Cloud Text-to-Speech 服務,你只需要透過點擊就能體驗到全球最先進的語音科技。想了解更多詳細資訊,請參考相關文件價目表;想要試用公開測試版或體驗新的語音服務,請前往 Cloud Text-to-Speech 的網站

(首圖來源:科技新報)