DeepMind 語音生成模型 WaveNet 正式商用:效率提高 1,000 倍

作者 | 發布日期 2017 年 10 月 06 日 8:00 | 分類 AI 人工智慧 , Big Data , Google follow us in feedly

10 月 4 日,DeepMind 在部落格發文稱,一年前提出的生成初始聲訊波形的深層神經網路模型 WaveNet 已正式商用於 Google Assistant,該模型比一年前的初始模型效率提高 1,000 倍,且比目前方案更能模擬自然語音。



以下為 DeepMind 部落格的詳細資訊,編譯如下。


一年前,我們提出一種用於生成初始聲訊波形的深層神經網路模型 WaveNet,可產生比目前技術更好和更逼真的語音。當時,這個模型是一個原型,如果用在消費級產品,計算量就太大了。

過去 12 個月,我們一直努力大幅度提高這模型的速度和品質,今天,我們驕傲地宣布,WaveNet 的更新版本已整合到 Google Assistant,用於生成各平台上所有英語和日語語音。

新的 WaveNet 模型可為 Google Assistant 提供更自然的聲音。

為了理解 WaveNet 如何提升語音生成,我們需要先了解目前字檔到語音(Text-to-Speech,TTS)或語音合成系統的工作原理。

目前的主流方法是基於所謂的銜接 TTS,使用單個配音演員的高品質錄音的大資料庫,通常有數小時的資料。這些錄音分割成小塊,然後將其組合以形成完整的話語。然而,這方法可能導致聲音在連線時不自然,且難以修改,因為每當需要一整套改變(例如新的情緒或語調)時,就要用到全新的資料庫。

另一方案是使用參數 TTS,該方案不需要用諸如語法、嘴型行動的規則和參數來指導電腦生成語音並銜接。這種方法即便宜又快捷,但這種方法生成的語音不那麼自然。

WaveNet 採取完全不同的方法。初始論文中,我們說明一個深層的生成模型,可以每秒處理 16,000 個樣本、每次處理一個樣本檔的方式構建單波形,達成各聲音之間無縫轉換。

WaveNet 使用卷積神經網路構建,用大量語音樣本資料集訓練。在訓練階段,網路確定語音的底層架構,比如哪些音調相互依存,什麼樣的波形是真實的以及哪些波形不自然。訓練好的網路每次合成一個樣本,每個生成的樣本都考慮前一個樣本的屬性,產生的聲音包含自然語調和如嘴唇形態等參數。它的「口音」取決於它接受訓練時的聲音口音,而且可從混合資料集建立任何獨特聲音。與 TTS 系統一樣,WaveNet 使用字檔匯入來告訴它應該產生哪些字以回應查詢。

初始模型以建立高傳真聲音為目的,需要大量的計算。這意味著 WaveNet 理論上可做到完美模擬,但難以現實商用。過去12個月,團隊一直在努力開發一種能更快生成聲波的新模型。該模型適合大規模部署,並且是第一個在 Google 最新 TPU 雲端基礎設施應用的產品。

▲ 新模型 1 秒鐘能生成 20 秒的聲音訊號,比初始方法快 1,000 倍。

WaveNet 團隊目前正在準備一份詳細介紹新模型背後研究的論文,但我們認為,結果自己會說話。改進版的 WaveNet 模型仍然生成初始波形,但速度比初始模型快 1,000 倍,每建立 1 秒鐘的語音只需要 50 毫秒。該模型不僅速度更快,且傳真度更高,每秒可產生 24,000 個取樣波形,同時我們還將每個樣本的解析度從 8bit 增加到 16bit,與光碟使用的解析度相同。

這些改進使新模型在人類聽眾的測試中發聲顯得更自然。新的模型生成的第一組美式英語語音得到的平均意見得分(MOS)為 4.347(滿分 5 分),而真實人類語音的評分只有 4.667。

新型態還保留了初始 WaveNet 的彈性,使我們在訓練階段更能利用大量資料。具體來說,我們可以使用多個語音的資料來訓練網路。這可以用於生成高品質和具細節層次的聲音,即使在所需匯出語音中幾乎沒有訓練資料可用。

我們相信對 WaveNet 來說只是開始。我們為世界所有語言的語音介面的無限可能興奮不已。

(本文由 雷鋒網 授權轉載;首圖來源:pixabay

延伸閱讀: