多模態大型語言模型(Multimodal Large Language Model,MLLM)近來進展值得關注,然而通用領域的 MLLM 在解讀螢幕資訊和使用者介面(User Interface,UI)常常表現不佳。蘋果最新研究描述該公司如何開發「Ferret-UI」,是一種專門用於理解手機螢幕畫面的 MLLM,預期可為未來更強大的 Siri 提供動力。
MLLM 在拓展 AI 系統理解非文字資訊的能力,像是圖像、影像、音訊等。然而 MLLM 目前不擅長理解應用程式的輸出,造成這種情況的原因有很多,首先是智慧手機螢幕畫面與大多數影像訓練資料的長寬比不同,更具體來說,MLLM 所要辨識的圖像(如圖示和按鍵)非常小。此外,在解釋靜態圖像需要與應用程式有所互動,並非一下子就能理解資訊。
一篇主題為《Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs》的論文日前上傳至 arXiv.org,蘋果研究人員提出的 Ferret-UI 是一種全新 MLLM,專為理解手機 UI 螢幕而設計,可望解決上述問題。
有鑑於手機 UI 螢幕通常比自然圖像有著更細長的長寬比,而且包含更小的圖文資訊,蘋果以 Ferret MLLM 為基礎加入「任何解析度」的功能,放大細節並強化視覺特徵。
蘋果從廣泛的基本 UI 任務精心收集訓練樣本,例如圖示辨識、尋找文字、小工具清單等。這些樣本經過格式化以遵循指令,附有區域註釋,便於精確參考。為了強化模型的推論能力,蘋果進一步編譯用於高階任務的資料集,包括詳細描述、對話感知或互動、功能推論。
蘋果研究人員稱 Ferret-UI 不僅比多數開源 UI MLLM 表現出色,且在所有基本 UI 任務超越 GPT-4V。
國外媒體 9to5Mac 報導點出 Ferret-UI 未來潛力。首先,它可能是評估 UI 有效性的有用工具,開發者可以建立應用程式初期版本,讓 Ferret-UI 確認其理解和使用上的難易程度,這可能比人類測試更快、更有效率。
Ferret-UI 可望為盲人總結螢幕畫面顯示的內容,並列出可用選項,然後盲人可以告訴 iPhone 他想要做什麼。
Ferret-UI 還有機會為 Siri 提供一種嶄新的使用形式,使用者可向 Siri 說出需求,比方說「查看明天從甘迺迪國際機場飛往波士頓的航班,預訂一個航班的座位,上午 10 點前抵達波士頓,票價要低於 200 美元。」接著 Siri 透過航空公司應用程式完成任務。
(首圖來源:shutterstock)