Meta Llama 4 模型引發基準測試爭議，LMArena 更新排行榜規則

在最近的 AI 模型競爭中，Meta 的 Llama 4 系列引發廣泛的爭議。Meta 在週末出乎意料地推出了兩個新的 Llama 4 模型，分別是較小的 Scout 和中型的 Maverick。這些模型聲稱可以在多個廣為報導的基準測試中超越 OpenAI 的 GPT-4o 和 Google 的 Gemini 2.0 Flash。Maverick 迅速在 AI 基準網站 LMArena 上獲得第二名，這使得 Meta 的開放權重 Llama 4 看起來成為了對抗 OpenAI、Anthropic 和 Google 等封閉模型的有力競爭者。

然而，深入研究Meta的文檔後，AI研究人員發現一些不尋常的情況。Meta在小字部分承認，在LMArena上測試的Maverick版本並非公開可用的版本，而是專門針對對話性進行優化「實驗性聊天版本」，這一發現引發了對Meta是否在基準測試中採用不公平手段的質疑。

LMArena隨後表示，將更新其排行榜規則，以應對Meta利用未公開版本獲得第二名的情況。儘管Meta的高管Ahmad Al-Dahle否認了公司在基準測試中故意隱瞞模型弱點的傳聞，但這一事件仍然突顯了AI市場中公司宣傳和實際性能之間的差距。

此外，Meta的Llama 4系列在AI社群中獲得的反響不一，許多專家對其性能表示懷疑，認為其在市場宣傳上過於樂觀。獨立AI研究員Simon Willison表示，對於Llama 4的評價目前顯得相對平庸，這進一步顯示了Meta在AI領域所面臨的挑戰。隨著AI技術的快速發展，市場對於透明度和真實性能的需求也在不斷上升，Meta需要更加謹慎地處理其產品的宣傳與實際表現之間的關係。

（首圖來源：Meta）