Google 開放 BERT 模型原始碼,提供頂尖自然語言處理表現

作者 | 發布日期 2018 年 11 月 06 日 15:15 | 分類 AI 人工智慧 , Google , 開放資料 follow us in feedly

Google 在人工智慧相關研究的成果一向相當優異,之前公布的 BERT 模型更在自然語言處理方面再次打破紀錄,獲得不少垂青。最近 Google 終於把模型原始碼等組件開源,為開發者社群帶來強力工具。



BERT 模型是預先訓練語言特徵,透過大型文本數據庫訓練,獲得通用語言理解模型。此模型可應用在自然語言處理下游工作,包括常用問答處理等。BERT 是首個用於預先訓練自然語言處理的無監督、雙向深層系統,只需要應用文本資料庫就可訓練,減少大量開發程序,效果也相當出色。

Google 在 Github 開源的除了 BERT 模型的 TensorFlow 原始碼,也有 BERT-Base 與 BERT-Large 模型的預先訓練檢查點、微調實驗結果的自動化複現 TensorFlow 原始碼、預先訓練數據生成和數據訓練的原始碼,可謂相當全面。

BERT 於史丹佛 SQuAD 閱讀理解測試,取得 93.2% 準確度的極高分數,比人類閱讀的基準分數 91.6% 還高,在另一個 GLUE 基準測試也取得 80.4% 準確率。有了這工具,開發者就可製作更準確理解自然語言的應用,對人工智慧開發有不小幫助。

(本文由 Unwire Pro 授權轉載;首圖來源:Google AI