調查發現大量 AI 研究採用資料庫標籤混亂

作者 | 發布日期 2021 年 07 月 19 日 8:45 | 分類 AI 人工智慧 , 軟體、系統 Telegram share ! follow us in feedly


對人工智慧的機器學習訓練而言,優質資料庫是製作有效模型的關鍵,但有研究發現,不少 AI 研究使用的標籤多不統一,研究效率降低、造成錯誤。

最近《Quantitative Science Studies》雜誌的研究,諮詢公司 Webster Pacific 和加州大學聖地亞哥分校和柏克萊分校研究人員調查 AI 研究論文遵循資料庫標記最佳實踐狀況,發現很多研究都沒有註明到底是誰標記資料庫,或資料庫來源。建立資料庫的過程容易發生人為錯誤,而導致比較訓練進度時採用的資料庫子集有問題。

MIT 最近研究也發現,訓練商用模型的資料庫有幾千到幾百萬個錯誤標記,這些問題有可能導致研究人員最後選擇劣質模型。研究呼籲人工標記應採用單一方案,重複使用資料庫也要更謹慎,避免偏見蔓延,確保最後訓練出來的模型不會有相同問題。

(本文由 Unwire Pro 授權轉載;首圖來源:shutterstock)