DeepMind 提出產圖 AI 評估標準 Gecko

生成式 AI 模型進化快速，比較各模型效能除了透過成果評價，更量化標準也有必要。DeepMind 最近發表產圖 AI 的評估標準，能更有效評估模型效能。

Google DeepMind 團隊發表於 arXiv 論文提出「Gecko」基準評估法，針對圖片生成 AI 模型提供更全面可靠的基準。

DeepMind 論文表示：「雖然文字產圖模型無處不在，但未必產生與提示一致的圖片。」目前主要評估 DALL‧E、Midjourney 和 Stable Diffusion 等模型能力的資料庫和自動指標未能反映全貌，小型人工評估只能提供有限見解，自動指標可能忽視重要細節，甚至與人工判斷互相矛盾。

為解決問題，研究員開發 Gecko 基準測試套件，以 2 千條涵蓋各技能和複雜度的文字提示，大量指示文字產圖模型。Gecko 之後會細分提示涉及的獨特技術，精準指出模型弱點。

共同主要作者 Olivia Wiles 解釋：「這種基於 AI 技能的基準測試將提示分類為子技能，讓開發者不僅找出哪些技能有挑戰性，更能掌握哪種複雜度會構成挑戰。」

（本文由 Unwire Pro 授權轉載；首圖來源：Google DeepMind）

從這裡可透過《Google 新聞》追蹤 TechNews

科技新知，時時更新