馬斯克：AI 訓練去年就已耗盡現實世界的所有資料

全球首富馬斯克（Elon Musk）認同其他 AI 專家看法，現實世界能用來訓練 AI 模型的資料，已經消耗得差不多了。

TechCrunch報導，馬斯克近日在拉斯維加斯消費電子展（CES）期間，於社交平台X接受Stagwell執行長Mark Penn訪問時指出，基本上，AI訓練已將人類累積的知識全數耗盡，時間點落在2024年。

Watch Stagwell’s CEO Mark Penn interview Elon Musk at CES! https://t.co/BO3Z7bbHOZ

— Live (@Live) January 9, 2025

馬斯克呼應OpenAI前科學長Ilya Sutskever去年12月在機器學習會議「NeurIPS」的說法。Sutskever當時說，AI產業能消耗的數據已觸頂（peak data）；在缺少訓練資料的情況下，將迫使AI模型改以其他方法研發。

馬斯克暗示合成資料（synthetic data，也就是AI模型自行生成的數據）將是未來之路。他說，「補充現實世界數據的唯一方法就是合成資料，由AI負責創造訓練用的數據」，透過合成資料，「AI會替自己打分數，並展開自我學習的過程」。

微軟（Microsoft）、Facebook母公司Meta、OpenAI及Anthropic等企業早已開始使用合成資料訓練AI模型。科技市調機構Gartner估計，2024年AI及分析專案使用的資料中，約60%是合成資料。

事實上，1月8日開源的微軟AI模型「Phi-4」就是以合成資料輔以現實世界數據來訓練。Google的「Gemma」模型也是如此。Anthropic使用部分合成資料來開發表現最佳的系統之一「Claude 3.5 Sonnet」。Meta則運用AI生成數據來微調最新推出的Llama系列模型。

（本文由 MoneyDJ新聞授權轉載；首圖來源：shutterstock）

從這裡可透過《Google 新聞》追蹤 TechNews

科技新知，時時更新

想請我們喝幾杯咖啡？