
全球首富馬斯克(Elon Musk)認同其他 AI 專家看法,現實世界能用來訓練 AI 模型的資料,已經消耗得差不多了。
TechCrunch報導,馬斯克近日在拉斯維加斯消費電子展(CES)期間,於社交平台X接受Stagwell執行長Mark Penn訪問時指出,基本上,AI訓練已將人類累積的知識全數耗盡,時間點落在2024年。
Watch Stagwell’s CEO Mark Penn interview Elon Musk at CES! https://t.co/BO3Z7bbHOZ
— Live (@Live) January 9, 2025
馬斯克呼應OpenAI前科學長Ilya Sutskever去年12月在機器學習會議「NeurIPS」的說法。Sutskever當時說,AI產業能消耗的數據已觸頂(peak data);在缺少訓練資料的情況下,將迫使AI模型改以其他方法研發。
馬斯克暗示合成資料(synthetic data,也就是AI模型自行生成的數據)將是未來之路。他說,「補充現實世界數據的唯一方法就是合成資料,由AI負責創造訓練用的數據」,透過合成資料,「AI會替自己打分數,並展開自我學習的過程」。
微軟(Microsoft)、Facebook母公司Meta、OpenAI及Anthropic等企業早已開始使用合成資料訓練AI模型。科技市調機構Gartner估計,2024年AI及分析專案使用的資料中,約60%是合成資料。
事實上,1月8日開源的微軟AI模型「Phi-4」就是以合成資料輔以現實世界數據來訓練。Google的「Gemma」模型也是如此。Anthropic使用部分合成資料來開發表現最佳的系統之一「Claude 3.5 Sonnet」。Meta則運用AI生成數據來微調最新推出的Llama系列模型。
(本文由 MoneyDJ新聞 授權轉載;首圖來源:shutterstock)