
在最近的 AI 模型競爭中,Meta 的 Llama 4 系列引發廣泛的爭議。Meta 在週末出乎意料地推出了兩個新的 Llama 4 模型,分別是較小的 Scout 和中型的 Maverick。這些模型聲稱可以在多個廣為報導的基準測試中超越 OpenAI 的 GPT-4o 和 Google 的 Gemini 2.0 Flash。Maverick 迅速在 AI 基準網站 LMArena 上獲得第二名,這使得 Meta 的開放權重 Llama 4 看起來成為了對抗 OpenAI、Anthropic 和 Google 等封閉模型的有力競爭者。
然而,深入研究Meta的文檔後,AI研究人員發現一些不尋常的情況。Meta在小字部分承認,在LMArena上測試的Maverick版本並非公開可用的版本,而是專門針對對話性進行優化「實驗性聊天版本」,這一發現引發了對Meta是否在基準測試中採用不公平手段的質疑。
LMArena隨後表示,將更新其排行榜規則,以應對Meta利用未公開版本獲得第二名的情況。儘管Meta的高管Ahmad Al-Dahle否認了公司在基準測試中故意隱瞞模型弱點的傳聞,但這一事件仍然突顯了AI市場中公司宣傳和實際性能之間的差距。
此外,Meta的Llama 4系列在AI社群中獲得的反響不一,許多專家對其性能表示懷疑,認為其在市場宣傳上過於樂觀。獨立AI研究員Simon Willison表示,對於Llama 4的評價目前顯得相對平庸,這進一步顯示了Meta在AI領域所面臨的挑戰。隨著AI技術的快速發展,市場對於透明度和真實性能的需求也在不斷上升,Meta需要更加謹慎地處理其產品的宣傳與實際表現之間的關係。
- Meta accused of Llama 4 bait-and-switch to juice AI benchmark rank
- Meta got caught gaming AI benchmarks
- Meta’s surprise Llama 4 drop exposes the gap between AI ambition and reality
- Meta exec denies the company artificially boosted Llama 4’s benchmark scores
(首圖來源:Meta)