Meta 宣布開源新的 AI 模型,可將多種不同方式的數據資料連結在一起,未來可望創造身臨其境的多種感官體驗。
Meta 開源的新模型 ImageBind,是第一個能夠一次從 6 種不同方式結合資訊的 AI 模型。核心概念是將 6 種類型的數據資料連結到單一的 embedding space,包括視覺資料(圖片和影片的形式)、熱(像是紅外線影像)、文字、音訊、深度資訊,以及最耐人尋味的 IMU(Inertial Measurement Unit,慣性測量單元)讀數。
▲ ImageBind 模型的概念架構。(Source:Meta AI)
這聽起來有點抽象,但正是這個概念支撐起近來生成式 AI 的蓬勃發展。
比方說,Midjourney、Stable Diffusion、DALL-E 等文字轉成圖片的 AI 工具,在模型訓練階段就將文字和圖片連結在一起,它們在視覺資料中尋找模式,同時將資訊和圖片描述連結在一起。這就是這些 AI 工具能夠根據用戶的文字提示產生圖片的原因,許多同樣以文字提示產生影片或音訊的 AI 工具也是如此。
在這概念下,未來的 AI 系統統能以同樣的模式交叉引用數據資料。比方說,想像有個新的虛擬實境裝置,它不僅可以產生聲音、視覺影像,還能產生物理環境中的動作感受。當你想要模擬一趟海上之旅,虛擬實境系統不僅讓你置身在一艘船上,背景有海浪聲,還會讓你感受腳下的甲板搖晃、吹來涼爽的海風等等。
Meta 認為其他感官的數據資料,未來可望加入模型當中,例如觸摸、口語、氣味或者大腦 fMRI(功能性磁振造影)等。
雖然 ImageBind 只是 Meta 旗下一項專案,還沒有具體應用成果,卻指出生成式 AI 未來一大發展方向,同時對應到 Meta 重金投入的虛擬實境、混合實境以及元宇宙等願景。
ImageBind 的研究不僅很有意思,Meta 更是堅定站在開源陣營當中,相較於 OpenAI、Google 等公司有不同做法。ImageBind 也延續 Meta 既有策略,向開發者和研究人員公開研究成果。
(首圖來源:City vector created by vectorpocket – www.freepik.com)