AI 生成更接近人類感知,Meta 開源新模型 ImageBind

作者 | 發布日期 2023 年 05 月 10 日 18:03 | 分類 AI 人工智慧 , Facebook line share follow us in feedly line share
AI 生成更接近人類感知,Meta 開源新模型 ImageBind


Meta 宣布開源新的 AI 模型,可將多種不同方式的數據資料連結在一起,未來可望創造身臨其境的多種感官體驗。

Meta 開源的新模型 ImageBind,是第一個能夠一次從 6 種不同方式結合資訊的 AI 模型。核心概念是將 6 種類型的數據資料連結到單一的 embedding space,包括視覺資料(圖片和影片的形式)、熱(像是紅外線影像)、文字、音訊、深度資訊,以及最耐人尋味的 IMU(Inertial Measurement Unit,慣性測量單元)讀數。

▲ ImageBind 模型的概念架構。(Source:Meta AI

這聽起來有點抽象,但正是這個概念支撐起近來生成式 AI 的蓬勃發展。

比方說,Midjourney、Stable Diffusion、DALL-E 等文字轉成圖片的 AI 工具,在模型訓練階段就將文字和圖片連結在一起,它們在視覺資料中尋找模式,同時將資訊和圖片描述連結在一起。這就是這些 AI 工具能夠根據用戶的文字提示產生圖片的原因,許多同樣以文字提示產生影片或音訊的 AI 工具也是如此。

在這概念下,未來的 AI 系統統能以同樣的模式交叉引用數據資料。比方說,想像有個新的虛擬實境裝置,它不僅可以產生聲音、視覺影像,還能產生物理環境中的動作感受。當你想要模擬一趟海上之旅,虛擬實境系統不僅讓你置身在一艘船上,背景有海浪聲,還會讓你感受腳下的甲板搖晃、吹來涼爽的海風等等。

Meta 認為其他感官的數據資料,未來可望加入模型當中,例如觸摸、口語、氣味或者大腦 fMRI(功能性磁振造影)等。

雖然 ImageBind 只是 Meta 旗下一項專案,還沒有具體應用成果,卻指出生成式 AI 未來一大發展方向,同時對應到 Meta 重金投入的虛擬實境、混合實境以及元宇宙等願景。

ImageBind 的研究不僅很有意思,Meta 更是堅定站在開源陣營當中,相較於 OpenAI、Google 等公司有不同做法。ImageBind 也延續 Meta 既有策略,向開發者和研究人員公開研究成果。

(首圖來源:City vector created by vectorpocket – www.freepik.com