蘋果推 ILuvUI 模型，使 AI 理解行動應用介面

蘋果與芬蘭阿爾托大學合作，推出 ILuvUI 視覺語言模型，旨在理解行動應用程式介面。核心在教導人工智慧（AI）模型如何像人類推理用戶介面，不僅需要視覺訊息，還包括語義理解。

ILuvUI論文指出，理解和自動化用戶介面操作是一項挑戰，因介面元素如列表項、複選框和文本框包含訊息層次遠超過互動性。雖然大型語言模型（LLMs）自然語言任務表現出色，但僅依賴文本描述理解用戶介面，卻忽略豐富視覺訊息。

多數視覺語言模型主要用自然圖像訓練，如狗貓或街道號誌，因此解釋結構化環境（如應用程式介面）時表現不佳。研究員強調，將視覺訊息與文本訊息融合理解用戶介面至關重要，因反映人類與世界互動的方式。為了克服挑戰，團隊微調開源視覺語言模型LLaVA，並調整訓練法以專注用戶介面。他們使用合成生成文本─圖像訓練，最終資料庫包括問答式互動、詳細螢幕描述、預測操作結果，甚至是多步驟計畫。

訓練後ILuvUI機器基準測試和人類偏好測試均超越原始LLaVA模型。更重要的是，ILuvUI不需要用戶指定介面的特定區域，能從簡單提示理解整個螢幕上下文，使其能執行視覺問答等應用。蘋果研究員表示，可能對無障礙設計和自動化用戶介面測試有重要意義。將來研究可能涉及更大圖像編碼器、更佳解析度處理，以及與現有用戶介面框架（如JSON）無縫協作的輸出格式。

蘋果也發表另一項研究，質疑大型語言模型推理力，指出AI「推理」主要依賴複雜模式匹配，而非真正認知推理。這些模型處理簡單問題時可能太複雜，更複雜問題就表現不佳。這觀點引發對AI本質的辯論，並更謹慎和明智部署技術。

（首圖來源：Flickr/MIKI Yoshihito CC BY 2.0）