蘋果公司最近發表一項研究,探討如何利用生成式人工智慧(AI)改善 App 開發流程,尤其是在使用者介面(UI)設計方面。這項研究的核心,是開發一種新方法,讓專業設計師對 AI 生成的 UI 進行評估與改進,進而建立一個包含 1,460 個「前後對照」範例的資料集,用於訓練獎勵模型。
這項研究背景源於蘋果先前的 UICoder 模型。該模型專注生成可編譯的 UI 程式碼,雖然功能上符合要求,但在美感上經常不足。為了解決此問題,研究團隊選擇繞過傳統的「以人類回饋強化學習」(RLHF)流程,改為直接捕捉設計師工作流程:由專業人士對 AI 生成的 UI 進行評審,提供逐步改進,並把這些調整轉換為偏好資料,用於模型訓練。
本研究共有 21 位設計師參與,年資從 2 年到超過 30 年不等,涵蓋 UI/UX 設計、產品設計、服務設計等領域。研究團隊蒐集 1,460 則註釋,形成 AI 生成的較差 UI 與設計師改進後較佳 UI 之間的配對範例。
這些資料用於訓練獎勵模型。該模型接受兩種輸入:渲染影像(UI 螢幕截圖)與自然語言描述(UI 的目標描述),並產生一個數值分數(獎勵)。該分數經校準後,可讓視覺品質較佳的設計獲得更高分。蘋果主要以 Qwen2.5-Coder 做為 UI 生成的基礎模型,並將同一套由設計師訓練出的獎勵模型套用到較小與更新的 Qwen 變體,以測試此方法在不同模型大小與版本下的泛用性。
研究結果顯示,以設計師回饋(特別是草圖與直接修訂)訓練出的模型,在 UI 設計品質上顯著優於僅使用傳統排序或評分資料訓練的基礎模型。研究人員也指出,他們表現最佳的模型(Qwen3-Coder,經草圖回饋微調)甚至優於 GPT-5;而這項成果僅來自 181 則設計師草圖標註。
不過,研究團隊也提醒,對「好介面」的界定高度主觀,可能造成解法多樣化,並導致回饋機制的高變異。在研究中,當研究團隊獨立評估設計師排名的 UI 配對時,僅有 49.2% 的情況與設計師選擇一致;但若設計師以草圖或直接編輯提供回饋,研究團隊對改進的認同度則分別提升至 63.6% 與 76.1%。這顯示當設計師能具體呈現想改動之處時,對於「更好」的共識更容易形成。
這項研究不僅展示 AI 在 UI 設計上的潛力,也強調專業設計師意見在生成式 AI 模型訓練中的重要性,為未來 App 開發提供新的思路與方法。
(首圖來源:pixabay)






