
人工智慧領域,資料擁有權和治理正成為競爭與創新的新前線。最近,艾倫人工智慧研究所(Ai2)開發 FlexOlmo 新大型語言模型,使資料擁有者能在模型訓練後仍控制資料庫使用。
這突破挑戰大型人工智慧公司隨意收集網路、書籍等資料來源的行為,並在資料納入模型後,幾乎無法再提取的現狀。
Ai2首席執行長阿里·法哈迪(Ali Farhadi)表示,傳統上,資料不是納入模型就是排除,且訓練完成,資料擁有者便失去控制權。FlexOlmo模型的設計允許資料擁有者不必交出數據下,將資料貢獻給模型。資料擁有者可先複製公開共享的「錨點模型」,然後用自己資料訓練第二個模型,最終將結果與錨點模型結合,並將最終模型貢獻給開發者。
這方法好處在,資料擁有者可需要時隨時提取,這對面臨法律糾紛的出版商來說尤為重要。Ai2研究科學家米恩(Sewon Min)指出,這訓練過程完全非同步,資料擁有者無需協調,訓練可獨立進行。
FlexOlmo模型架構採專家混合設計,是流行模型組合。Ai2創新在合併獨立訓練的子模型,這使最終模型能力可運行時與其他模型合併。團隊使用Flexmix資料庫測試,來自書籍和網站,並建立有370億參數的模型,結果顯示所有任務均優於其他單一模型,並在常見基準測試比其他兩種獨立訓練模型的合併方法高10%。
法哈迪表示,這新方法使資料擁有者能不損害推理時間下選擇退出系統,是全新思維方式。史丹佛大學AI研究員佩西·梁(Percy Liang)認為,Ai2這方法提供更模組化控制,挑戰將語言模型視為單一黑箱的傳統觀念。
然而,法哈迪和米恩也警告,最終模型仍能重建數據,需採用如差分隱私等技術來確保數據安全。資料擁有權問題日益成為法律焦點,許多出版商正在與大型AI公司達成協議,確保內容使用權。2025年,資料擁有權和治理轉成AI發展和商業增長的關鍵,為新經濟模型和資料權力動態的形成鋪路。
(首圖來源:AI)