蘋果提出多模態大型語言模型 Ferret-UI，有望強化 Siri 能力

多模態大型語言模型（Multimodal Large Language Model，MLLM）近來進展值得關注，然而通用領域的 MLLM 在解讀螢幕資訊和使用者介面（User Interface，UI）常常表現不佳。蘋果最新研究描述該公司如何開發「Ferret-UI」，是一種專門用於理解手機螢幕畫面的 MLLM，預期可為未來更強大的 Siri 提供動力。

MLLM 在拓展 AI 系統理解非文字資訊的能力，像是圖像、影像、音訊等。然而 MLLM 目前不擅長理解應用程式的輸出，造成這種情況的原因有很多，首先是智慧手機螢幕畫面與大多數影像訓練資料的長寬比不同，更具體來說，MLLM 所要辨識的圖像（如圖示和按鍵）非常小。此外，在解釋靜態圖像需要與應用程式有所互動，並非一下子就能理解資訊。

一篇主題為《Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs》的論文日前上傳至 arXiv.org，蘋果研究人員提出的 Ferret-UI 是一種全新 MLLM，專為理解手機 UI 螢幕而設計，可望解決上述問題。

有鑑於手機 UI 螢幕通常比自然圖像有著更細長的長寬比，而且包含更小的圖文資訊，蘋果以 Ferret MLLM 為基礎加入「任何解析度」的功能，放大細節並強化視覺特徵。

蘋果從廣泛的基本 UI 任務精心收集訓練樣本，例如圖示辨識、尋找文字、小工具清單等。這些樣本經過格式化以遵循指令，附有區域註釋，便於精確參考。為了強化模型的推論能力，蘋果進一步編譯用於高階任務的資料集，包括詳細描述、對話感知或互動、功能推論。

蘋果研究人員稱 Ferret-UI 不僅比多數開源 UI MLLM 表現出色，且在所有基本 UI 任務超越 GPT-4V。

國外媒體 9to5Mac 報導點出 Ferret-UI 未來潛力。首先，它可能是評估 UI 有效性的有用工具，開發者可以建立應用程式初期版本，讓 Ferret-UI 確認其理解和使用上的難易程度，這可能比人類測試更快、更有效率。

Ferret-UI 可望為盲人總結螢幕畫面顯示的內容，並列出可用選項，然後盲人可以告訴 iPhone 他想要做什麼。

Ferret-UI 還有機會為 Siri 提供一種嶄新的使用形式，使用者可向 Siri 說出需求，比方說「查看明天從甘迺迪國際機場飛往波士頓的航班，預訂一個航班的座位，上午 10 點前抵達波士頓，票價要低於 200 美元。」接著 Siri 透過航空公司應用程式完成任務。