開源 AI 模型 Reflection 70B 效能不如預期惹議

現在有新 AI 模型推出，都會以表現為宣傳重點，稍早基於 Meta Llama 3.1 開發的 Reflection 70B 號稱有最頂尖效能，但公開後成績不理想，引起開發者社群質疑是否做假。

紐約公司 AI 新創 HyperWrite 開發 Reflection 70B 模型，本藉第三方測試取得領先成績引人關注，但公開後開發者無法重現結果，質疑之前的成績。HyperWrite 聯合創辦人兼 CEO Matt Shumer 6 日於 X 表示 Reflection 70B 是「世界頂尖開放原始碼模型」，解釋模型訓練時用了「Reflection Tuning」技術，模型輸出前先自行檢查並反思生成的回應，以提升多項任務準確性。

模型公開後，第三方組織 Artificial Analysis 也公布 Reflection 70B 獨立評估，指 MMLU 測試成績與 Llama 3 70B 相同，且明顯低於 Llama 3.1 70B，與 Shumer 最初宣稱有嚴重出入。Shumer 之後回應稱模型上傳至 Hugging Face 平台時發生錯誤，導致性能未達預期。

Our evaluation of Reflection Llama 3.1 70B’s MMLU score resulted in the same score as Llama 3 70B and significantly lower than Meta’s Llama 3.1 70B.

A LocalLLaMA post (link below) also compared the diff of Llama 3.1 & Llama 3 weights to Reflection Llama 3.1 70B and concluded the… pic.twitter.com/hqvFp2TyCC

— Artificial Analysis (@ArtificialAnlys) September 7, 2024

Artificial Analysis 後來獲 HyperWrite 的 API 存取權限並測試，雖然結果不如 Shumer 最初宣傳，但仍有不錯的表現。開發者社群爭議聲四起，部分用戶質疑 Reflection 70B 可能並非 Llama 3.1 變體，而是 Llama 3。還有人指控模型可能是基於競爭對手 Anthropic 閉源技術 Claude 3 重新包裝，導致偏差結果。