OpenAI 發表新語音系統 Whisper,英文辨識能力接近人類程度

作者 | 發布日期 2022 年 09 月 27 日 8:15 | 分類 AI 人工智慧 line share follow us in feedly line share
OpenAI 發表新語音系統 Whisper,英文辨識能力接近人類程度


9 月 21 日 OpenAI 發表「Whisper」神經網路,聲稱英文辨識力接近人類程度。

Whisper是自動語音辨識(ASR)系統,研究團隊透過網路收集68萬小時多語音和多任務監督數據訓練。研究團隊發現,使用如此龐大且多樣化的資料庫可提高口音、背景噪音和技術語言的強健性。

之前不同研究表明,雖然無監督預訓練提高音頻編碼器品質,但缺乏同樣高品質的預訓練解碼器,以及特定資料庫的微調協議,一定程度限制模型有效性和強健性;部分有監督預訓練語音辨識系統,表現會比單一源訓練模型有更高強健性。

OpenAI在Whisper新資料庫比現有高品質資料庫總和大幾倍的基礎上,將弱監督語音辨識的等級擴展至68萬小時;研究團隊還示範這種規模,訓練模型轉移現有資料庫的零射擊表現,可消除任何特定資料庫微調的影響,以達到高品質結果。

▲ 方法概述。(Source:OpenAI

許多語音處理任務訓練序列到序列的轉換器模型,包括多語言語音辨識、語音翻譯、口頭語言辨識和語音活動檢測;所有任務都表示為由解碼器預測的標記序列,允許單一模型取代傳統語音處理管道的不同階段;多任務訓練格式使用一組特殊標記,為任務指定者或分類目標。

Whisper架構採用簡單點到點方法,透過編碼器─解碼器Transformer做到:匯入音頻分成30秒一塊,轉換成log-Mel頻譜圖後傳遞到編碼器。解碼器可預測相應文本標題,並與特殊標記混合,由這些標記指導單個模型執行諸如語言辨識、短語級時間戳、多語言語音轉錄和英語語音翻譯等任務。

▲ Whisper架構。(Source:OpenAI

由於Whisper是在龐大且多樣的資料庫上進行,沒有針對任何特定資料庫微調,因此不會擊敗專門研究LibriSpeech性能的模型。許多資料庫測量Whisper的零樣本性能時,Whisper比其他模型更穩定,錯誤率降低50%。

除了夠大資料庫,Whisper還支援多種語言轉錄,以及將之翻成英語。68萬小時音頻,共11.7萬小時涵蓋96種語言,和12.5萬小時轉錄和翻譯數據,即約有三分之一非英語。Whisper會交替執行以原始語言轉錄或翻譯成英語的任務,這種方法學習語音到文本翻譯特別有效,且優於CoVoST2到英語翻譯零樣本的監督SOTA。

Whisper已開源,可用於語音辨識研究。OpenAI創始人Ilya Sutskever表示「終於有個能理解我說話的可靠語音辨識系統。」

特斯拉人工智慧和自動駕駛部門前負責人Andrej Karpathy也轉推,稱「OpenAI處於最佳狀態」。

但對Whisper不少用戶有疑慮。網友Vincent Lordier提出「之前GTP-3和Dalle-2出現言論禁止,是否使用Whisper時也會有,是否會出現Whisper編輯/刪除用戶語音?」

大家又怎麼看這類語音辨識?

(本文由 雷鋒網 授權轉載;首圖來源:shutterstock)