DeepMind 提出產圖 AI 評估標準 Gecko

作者 | 發布日期 2024 年 05 月 07 日 8:20 | 分類 AI 人工智慧 , Google , 軟體、系統 line share follow us in feedly line share
DeepMind 提出產圖 AI 評估標準 Gecko


生成式 AI 模型進化快速,比較各模型效能除了透過成果評價,更量化標準也有必要。DeepMind 最近發表產圖 AI 的評估標準,能更有效評估模型效能。

Google DeepMind 團隊發表於 arXiv 論文提出「Gecko」基準評估法,針對圖片生成 AI 模型提供更全面可靠的基準。

DeepMind 論文表示:「雖然文字產圖模型無處不在,但未必產生與提示一致的圖片。」目前主要評估 DALL‧E、Midjourney 和 Stable Diffusion 等模型能力的資料庫和自動指標未能反映全貌,小型人工評估只能提供有限見解,自動指標可能忽視重要細節,甚至與人工判斷互相矛盾。

為解決問題,研究員開發 Gecko 基準測試套件,以 2 千條涵蓋各技能和複雜度的文字提示,大量指示文字產圖模型。Gecko 之後會細分提示涉及的獨特技術,精準指出模型弱點。

共同主要作者 Olivia Wiles 解釋:「這種基於 AI 技能的基準測試將提示分類為子技能,讓開發者不僅找出哪些技能有挑戰性,更能掌握哪種複雜度會構成挑戰。」

(本文由 Unwire Pro 授權轉載;首圖來源:Google DeepMind