蘋果近日與威斯康辛大學麥迪遜分校(University of Wisconsin – Madison)合作,發表「RubiCap」(全稱 Rubric-Guided Reinforcement Learning for Dense Image Captioning)全新 AI 訓練框架,突破模型規模限制,讓參數較小模型的圖像描述精準度與詳細度,能與體積大十倍的巨型模型媲美,甚至表現更佳。
所謂「密集圖像描述」(Dense image captioning),是指 AI 不僅能總結整張圖片,還能辨識圖片多個區域與元素,產生細緻的區域級描述。新技術對訓練視覺語言模型(VLM)與文字產圖模型很重要,同時也大幅提升圖像搜尋準確性及無障礙輔助工具效能。
團隊指出,目前密集圖像描述模型訓練面臨挑戰:雖然合成描述是種可行替代方案,但監督式蒸餾法(supervised distillation)往往導致輸出多樣性不足且通用性弱。為了解決問題,RubiCap 採創新強化學習(RL)法。
研究員從 PixMoCap 和 DenseFusion-4V-100K 資料庫隨機抽取 5 萬張圖。系統用 Gemini 2.5 Pro、GPT-5、Qwen2.5-VL-72B-Instruct、Gemma-3-27B-IT 及 Qwen3-VL-30B-A3B-Instruct 等多個視覺語言模型幫每張圖片產生描述,RubiCap 再用 Gemini 2.5 Pro 分析,對比描述與模型輸出,找出遺漏或誤導處,制定明確評判標準(Rubric)。最後 Qwen2.5-7B-Instruct 擔任裁判,根據這些標準評分,為模型提供精確的獎勵。
研究結果顯示,基於此框架開發的 RubiCap-2B、RubiCap-3B 與 RubiCap-7B 模型表現極為出色。多項基準測試,RubiCap-7B 勝率超越 GPT-4V 增強輸出等,盲測排名獲最高比例第一名,展現最低幻覺懲罰(hallucination penalty)與最高準確性。
令人驚訝的是,僅 30 億參數的 RubiCap-3B 模型某些基準測試甚至超越 70 億參數版。研究員強調,這證明強大密集圖像描述模型並不一定需要龐大參數,精簡的 RubiCap-3B 當標註器,訓練的視覺語言模型效能甚至優於昂貴專有模型標註訓練結果。這項研究可加速多模態 AI 訓練效率,並為行動裝置端 AI 應用開闢新路。
- Apple-trained AI captions images better than models 10× its size
- [2603.09160] RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning
(首圖來源:蘋果)






