語音助理 Siri 光是理解使用者提問,可能就要人們解釋半天,因此常常無法正確回答問題。蘋果研究人員開發出新的 AI 系統「ReALM」,可理解螢幕畫面上的實體,以及對話和背景的上下文關係,可望幫助 Siri 自然對話互動。
上週一篇主題為《ReALM: Reference Resolution As Language Modeling》的論文上傳至 arXiv.org,ReALM 利用大型語言模型,將複雜的指代消解任務轉換成純粹的語言模型問題。與現有方法相比,ReALM 能夠顯著提升性能。
「能夠理解上下文,包括參考資料,對語音助理而言相當重要」,蘋果研究人員寫道。
為了處理螢幕畫面上的參考資料,ReALM 關鍵做法是解析螢幕畫面上的實體及其位置來重建內容,捕捉視覺布局產生文字提示。研究人員證明,這種方法與專門針對指代消解的微調語言模型結合,可在執行解析任務上優於 GPT-4 表現。
研究人員認為 ReALM 優於過去方法,與目前最先進的 GPT-4 表現大致相同,而且參數相對較少。更重要的是,ReALM 在處理特定領域的使用者語句優於 GPT-4,使得 ReALM 成為可在裝置端執行的理想選擇。
儘管在迅速發展的 AI 競賽落後如微軟、Google、Meta 等競爭對手,蘋果在 AI 研究領域一步步取得重大進展,今年全球開發者大會(Worldwide Developers Conference,WWDC 2024)將是蘋果布局 AI 的重要觀察點,市場預期蘋果將會對外公開 AI 計畫。
- Apple AI researchers boast useful on-device model that ‘substantially outperforms’ GPT-4
- Apple researchers develop AI that can ‘see’ and understand screen context
(首圖來源:科技新報)