效果是 MP3 十倍,Meta 開發全新 AI 語音壓縮技術

作者 | 發布日期 2022 年 11 月 04 日 13:16 | 分類 AI 人工智慧 , 科技生活 line share follow us in feedly line share
效果是 MP3 十倍,Meta 開發全新 AI 語音壓縮技術


為了讓低頻寬網路也能傳送高品質語音檔案,Meta 近日公布一項 AI 語音壓縮技術,其壓縮效果是 MP3 的十倍,使低頻寬網路傳送聲音檔案時不會發生斷斷續續、失聲等情況。

Meta 表示,壓縮技術是當今網路重要一環,因為它可使人們更輕易的傳送高畫質照片、語音訊息等。然而,傳送這些多媒體訊息需要充足的頻寬和儲存空間,尤其是在未來的元宇宙世代,將為網路頻寬帶來更大的負擔;業界因而需要效果更好、能頻寬限制的壓縮技術。

為此,Meta 開發一項 AI 語音壓縮技術。Meta 旗下的基礎 AI 研究(Fundamental AI Research,FAIR)部門建立一個名為「EnCodec」的 AI 訓練模型,其涵蓋三個部分,分別為編碼器(encoder)、量化器(quantizer)及解碼器。

(Source:Meta)

首先是編碼器,其功用是可以將原始資料轉成更高維度以及較低影格速率(frame rate)的格式。其次是量化器,不僅能壓縮格式資料,還可以經由 AI 訓練將資料壓縮至計畫團隊想要的大小,且還保留最重要的資訊以重建原始訊號;其角色類似於 MP3 檔,能儲存或在網路上傳送。

最後則是解碼器,能將壓縮訊息重建為類似原始音訊的波形。研究人員解釋,要在低位元速率(bit rates)下完美重建壓縮訊號是很困難的,所以團隊利用鑑別器(Discriminator)提升生成樣本(generated sample)的品質;鑑別器主要功用是負責比對原始樣本和生成樣本的差異。

(Source:Meta)

總之,研究小組表示,經過測試後,EnCodec 在各種頻寬及音訊品質上,都能即時編碼及解碼,且 EnCodec(6kbps)壓縮率是 MP3(64kbps)的近 10 倍。雖然以往也有人嘗試以神經網路壓縮音訊,但 Meta 是首個將此技術用於 48kHz(CD 音質)的立體聲音。

(首圖來源:Meta