AI 競賽蘋果不缺席,研究人員低調發表多模態「雪貂」模型

作者 | 發布日期 2023 年 12 月 25 日 13:19 | 分類 AI 人工智慧 , Apple line share follow us in feedly line share
AI 競賽蘋果不缺席,研究人員低調發表多模態「雪貂」模型


蘋果和美國哥倫比亞大學研究人員在今年 10 月悄悄推出開源多模態大型語言模型(Multimodal Large Language Model,MLLM),這項研究命名為「Ferret」(中文為「雪貂」),可以辨識圖像區域內的元素以回應查詢,創造更多應用可能性。

Ferret 10 月在 GitHub 推出時沒有任何公告或大肆宣傳,因此並未引起關注,蘋果 AI 和機器學習研究科學家 Zhe Gan 在 10 月一則推文解釋 Ferret 用途。

簡而言之,Ferret 可以檢查圖像上繪製的區域,確認對使用者查詢有用的元素,辨識它並在檢測到的元素周圍描繪邊界。然後,它可以使用被辨識的元素做為查詢一部分,以典型方式對提問進行回應。比方說,標記出圖像中的某一隻動物,詢問大型語言模型該動物是什麼,它可以確認動物物種以及使用者指的是群體中哪一隻動物,它可以使用圖像檢測到的其他項目以及提示上下文回應查詢。

值得一提的是,發表在 GitHub 上的內容還談道,Ferret 是以 8 個具有 80GB 記憶體的 NVIDIA A100 GPU 進行訓練。

▲ Zhe Gan 解釋 Ferret 用途。

儘管一開始沒有獲得太多關注,但這款開源模型對 AI 研究人員而言相當重要,Bart De Witte 經營有關 AI 醫學方面的非營利組織,他近日在 X 平台寫下錯過 Ferret 發表的推文,更稱「證明蘋果致力於有影響力的 AI 研究」。這也表明蘋果願意開放部分 AI 研究和工作,而非一貫採取保密、封閉立場。

開源的 Ferret 可應用在研究用途,現階段還無法商業化,然而蘋果參與其中研究,未來總有可能以某種方式應用到蘋果產品或服務中。

近來隨著 Mistral 開源新模型、Google Gemini 模型應用在 Pixel 手機等受到關注,有關大型語言模型支援小型裝置應用的討論越來越多。事實上,蘋果將大型語言模型部署在 iPhone 已取得重大突破,該公司近日有兩篇研究論文,介紹了 3D 頭像和高效語言模型推理的新技術,允許複雜 AI 系統在 iPhone、iPad 等裝置上運作,未來蘋果新機在 AI、機器學習應用將有更多可能性。

(首圖來源:Flickr/Eric Wüstenhagen CC BY 2.0)