調查發現大量 AI 研究採用資料庫標籤混亂

對人工智慧的機器學習訓練而言，優質資料庫是製作有效模型的關鍵，但有研究發現，不少 AI 研究使用的標籤多不統一，研究效率降低、造成錯誤。

最近《Quantitative Science Studies》雜誌的研究，諮詢公司 Webster Pacific 和加州大學聖地亞哥分校和柏克萊分校研究人員調查 AI 研究論文遵循資料庫標記最佳實踐狀況，發現很多研究都沒有註明到底是誰標記資料庫，或資料庫來源。建立資料庫的過程容易發生人為錯誤，而導致比較訓練進度時採用的資料庫子集有問題。

MIT 最近研究也發現，訓練商用模型的資料庫有幾千到幾百萬個錯誤標記，這些問題有可能導致研究人員最後選擇劣質模型。研究呼籲人工標記應採用單一方案，重複使用資料庫也要更謹慎，避免偏見蔓延，確保最後訓練出來的模型不會有相同問題。