在人工智慧領域,Meta 公司最近推出了一個名為 V-JEPA 的系統,這是一種能夠透過影像學習物理世界的 AI 模型。
V-JEPA(Video Joint Embedding Predictive Architecture)是Meta FAIR(Facebook AI Research)團隊的研究成果,其設計理念模仿人類嬰兒如何透過觀察來理解物體的持久性和物理法則。研究顯示,V-JEPA在面對與其已有知識相悖的資訊時,能夠展現出類似於嬰兒的驚訝反應,顯示出其具備「物理直覺」能力。
V-JEPA的運作方式與傳統的以畫素級別做直接影像預測的模型有所不同。傳統模型通常將影像中的每個畫素視為同等重要,這導致它們在分析場景時可能會過度關注不相關的細節,例如樹葉的運動,而忽略了交通號誌的顏色或附近汽車的位置。相對而言,V-JEPA使用更高層次的抽象表示來建模內容,這使得它能夠更有效地辨識影像中的重要元素。
這個模型的訓練過程包括對影像幀進行遮罩,然後利用神經網絡來預測被遮罩區域的內容。V-JEPA架構包括兩個編碼器和一個預測器三大組件:編碼器1處理被遮罩的幀,生成潛在表示,而編碼器2則處理未遮罩的幀,最終預測器利用這些潛在表示來預測未遮罩幀的輸出。
在一項名為IntPhys的測試中,V-JEPA的準確率接近98%,顯示出其在理解物理屬性方面的卓越能力。此成就對於自動化機器人來說至關重要,因為它們需要具備物理直覺以便規劃動作和與環境互動。
V-JEPA的團隊還量化了模型在預測與觀察不符時所表現出的驚訝程度,反應與嬰兒的直觀反應相似。儘管V-JEPA在模擬人類學習和建模世界的方式上取得了進展,但仍有一些基本元素缺失,例如對不確定性的適當編碼。
隨著V-JEPA 2的推出,這個模型的參數數量約為12億,並在包含62小時機器人數據的微調後,使用大量自然影像進行自我監督預訓練。新版本的模型在機器人學中的應用顯示出其潛力,未來可能會在簡單的機器人操作任務中發揮重要作用。V-JEPA 2的突破在於其兩階段訓練,使其能夠在零樣本情況下控制機器人完成抓取、放置等任務。
AI科學家楊立崑(Yann Le Cun)在2025年VivaTech會議中提及,V-JEPA技術是邁向「人工超級智慧」(Advanced Machine Intelligence,AMI)的重要一步。
- This AI Model Can Intuit How the Physical World Works
- Meta’s Le Cun Outlines Path to Artificial Superintelligence
- Introducing the V-JEPA 2 world model and new benchmarks for physical reasoning
- Exploring V-JEPA 2: The Latest in AI for Business
- Our New Model Helps AI Think Before it Acts
- We are innovating in the open, for a smarter, more connected world
(首圖來源:shutterstock)






