蘋果攜手威斯康辛大學推新 AI 框架，小模型描述圖片精準度比十倍大模型更佳

蘋果近日與威斯康辛大學麥迪遜分校（University of Wisconsin – Madison）合作，發表「RubiCap」（全稱 Rubric-Guided Reinforcement Learning for Dense Image Captioning）全新 AI 訓練框架，突破模型規模限制，讓參數較小模型的圖像描述精準度與詳細度，能與體積大十倍的巨型模型媲美，甚至表現更佳。

所謂「密集圖像描述」（Dense image captioning），是指 AI 不僅能總結整張圖片，還能辨識圖片多個區域與元素，產生細緻的區域級描述。新技術對訓練視覺語言模型（VLM）與文字產圖模型很重要，同時也大幅提升圖像搜尋準確性及無障礙輔助工具效能。

團隊指出，目前密集圖像描述模型訓練面臨挑戰：雖然合成描述是種可行替代方案，但監督式蒸餾法（supervised distillation）往往導致輸出多樣性不足且通用性弱。為了解決問題，RubiCap 採創新強化學習（RL）法。

研究員從 PixMoCap 和 DenseFusion-4V-100K 資料庫隨機抽取 5 萬張圖。系統用 Gemini 2.5 Pro、GPT-5、Qwen2.5-VL-72B-Instruct、Gemma-3-27B-IT 及 Qwen3-VL-30B-A3B-Instruct 等多個視覺語言模型幫每張圖片產生描述，RubiCap 再用 Gemini 2.5 Pro 分析，對比描述與模型輸出，找出遺漏或誤導處，制定明確評判標準（Rubric）。最後 Qwen2.5-7B-Instruct 擔任裁判，根據這些標準評分，為模型提供精確的獎勵。

研究結果顯示，基於此框架開發的 RubiCap-2B、RubiCap-3B 與 RubiCap-7B 模型表現極為出色。多項基準測試，RubiCap-7B 勝率超越 GPT-4V 增強輸出等，盲測排名獲最高比例第一名，展現最低幻覺懲罰（hallucination penalty）與最高準確性。

令人驚訝的是，僅 30 億參數的 RubiCap-3B 模型某些基準測試甚至超越 70 億參數版。研究員強調，這證明強大密集圖像描述模型並不一定需要龐大參數，精簡的 RubiCap-3B 當標註器，訓練的視覺語言模型效能甚至優於昂貴專有模型標註訓練結果。這項研究可加速多模態 AI 訓練效率，並為行動裝置端 AI 應用開闢新路。

（首圖來源：蘋果）