開源 AI 模型 Reflection 70B 效能不如預期惹議

作者 | 發布日期 2024 年 09 月 11 日 8:30 | 分類 AI 人工智慧 , 軟體、系統 line share Linkedin share follow us in feedly line share
Loading...
開源 AI 模型 Reflection 70B 效能不如預期惹議

現在有新 AI 模型推出,都會以表現為宣傳重點,稍早基於 Meta Llama 3.1 開發的 Reflection 70B 號稱有最頂尖效能,但公開後成績不理想,引起開發者社群質疑是否做假。

紐約公司 AI 新創 HyperWrite 開發 Reflection 70B 模型,本藉第三方測試取得領先成績引人關注,但公開後開發者無法重現結果,質疑之前的成績。HyperWrite 聯合創辦人兼 CEO Matt Shumer 6 日於 X 表示 Reflection 70B 是「世界頂尖開放原始碼模型」,解釋模型訓練時用了「Reflection Tuning」技術,模型輸出前先自行檢查並反思生成的回應,以提升多項任務準確性。

模型公開後,第三方組織 Artificial Analysis 也公布 Reflection 70B 獨立評估,指 MMLU 測試成績與 Llama 3 70B 相同,且明顯低於 Llama 3.1 70B,與 Shumer 最初宣稱有嚴重出入。Shumer 之後回應稱模型上傳至 Hugging Face 平台時發生錯誤,導致性能未達預期。

Artificial Analysis 後來獲 HyperWrite 的 API 存取權限並測試,雖然結果不如 Shumer 最初宣傳,但仍有不錯的表現。開發者社群爭議聲四起,部分用戶質疑 Reflection 70B 可能並非 Llama 3.1 變體,而是 Llama 3。還有人指控模型可能是基於競爭對手 Anthropic 閉源技術 Claude 3 重新包裝,導致偏差結果。

(本文由 Unwire Pro 授權轉載;首圖來源:Image by Freepik

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》