現在有新 AI 模型推出,都會以表現為宣傳重點,稍早基於 Meta Llama 3.1 開發的 Reflection 70B 號稱有最頂尖效能,但公開後成績不理想,引起開發者社群質疑是否做假。
紐約公司 AI 新創 HyperWrite 開發 Reflection 70B 模型,本藉第三方測試取得領先成績引人關注,但公開後開發者無法重現結果,質疑之前的成績。HyperWrite 聯合創辦人兼 CEO Matt Shumer 6 日於 X 表示 Reflection 70B 是「世界頂尖開放原始碼模型」,解釋模型訓練時用了「Reflection Tuning」技術,模型輸出前先自行檢查並反思生成的回應,以提升多項任務準確性。
模型公開後,第三方組織 Artificial Analysis 也公布 Reflection 70B 獨立評估,指 MMLU 測試成績與 Llama 3 70B 相同,且明顯低於 Llama 3.1 70B,與 Shumer 最初宣稱有嚴重出入。Shumer 之後回應稱模型上傳至 Hugging Face 平台時發生錯誤,導致性能未達預期。
Our evaluation of Reflection Llama 3.1 70B’s MMLU score resulted in the same score as Llama 3 70B and significantly lower than Meta’s Llama 3.1 70B.
A LocalLLaMA post (link below) also compared the diff of Llama 3.1 & Llama 3 weights to Reflection Llama 3.1 70B and concluded the… pic.twitter.com/hqvFp2TyCC
— Artificial Analysis (@ArtificialAnlys) September 7, 2024
Artificial Analysis 後來獲 HyperWrite 的 API 存取權限並測試,雖然結果不如 Shumer 最初宣傳,但仍有不錯的表現。開發者社群爭議聲四起,部分用戶質疑 Reflection 70B 可能並非 Llama 3.1 變體,而是 Llama 3。還有人指控模型可能是基於競爭對手 Anthropic 閉源技術 Claude 3 重新包裝,導致偏差結果。
(本文由 Unwire Pro 授權轉載;首圖來源:Image by Freepik)






