李飛飛最新理論，AI 下個十年最需要的不是大語言模型

當 ChatGPT 震驚世界時，我們以為 AI 已經夠聰明。但它仍然做不到一件事：準確判斷你伸手去拿桌上咖啡杯時，手指距杯柄多少公分。知名華裔 AI 學者李飛飛 10 日用一篇部落格文章回答這個問題：「真正的智慧不只文字遊戲，而是藏在我們每天都在用，卻從未意識到的能力裡──空間智慧。」

這是比語言更古老的智慧。改變人類文明的時刻，從來不是語言，而是空間感知、想像與推理。如古希臘學者觀察影子算出地球週長，科學家擺弄金屬絲拼出DNA雙螺旋結構，消防員在煙霧裡憑直覺判斷建築是否崩塌。

而現在，AI即將獲得一直缺少的這種能力。

AI’s next frontier is Spatial Intelligence, a technology that will turn seeing into reasoning, perception into action, and imagination into creation. But what is it? Why does it matter? How do we build it? And how can we use it?

Today, I want to share with you my thoughts on… pic.twitter.com/L0bnJcCUqc

— Fei-Fei Li (@drfeifei) November 10, 2025

以下為李飛飛文章全文翻譯，以饗讀者。

一，目前AI（特別是大型語言模型LLM）雖然改變運用抽象知識的方式、語言能力很強，卻缺乏真實經驗和理解物理世界，機器人、科學發現、沉浸式創造力等領域仍有根本限制。空間智慧是AI的下個前線，可徹底改變我們創造和體驗現實與虛擬世界的方式，並在機器人、科學發現和創造力等領域引領改變。

空間智慧是人類智慧的基石，甚至先於語言。它不僅支撐著我們與物理世界的日常互動（如駕駛、接住鑰匙），也是人類想像、創造力和科學發現（如古希臘測量地球週長、DNA 雙螺旋結構的發現）的核心。它是人類認知賴以建構的「鷹架」。

二，儘管多模態模型（MLLM）有進步，但AI空間能力與人類相差甚遠。它們無法準確估計距離、方向，無法在腦中「旋轉」物體，也無法預測基本物理規律。AI缺乏這種能力，就無法真正與物理現實建立聯繫。要實現空間智慧，我們需要超越LLM，建構更具野心的「世界模型」。這是全新生成式模型，功能遠遠超越現在LLM。李飛飛與World Labs都致力於此。

三，李飛飛定義世界模型必須有的三種功能：

生成性（Generative）：能夠產生在感知、幾何和物理規律上保持一致性的世界。
多模態性（Multimodal）：天生設計為多模態，能處理和輸出多種形式的資訊（如影像、影片、深度圖、文字、動作）。
互動性（Interactive）：能夠根據輸入的「動作」，預測或輸出世界的「下一個狀態」，並最終可能預測「下一步應採取的行動」。

四，李飛飛認為，建構世界模型遠比建構語言模型困難，因為世界的向度遠超語言。這需要克服三大挑戰：

新的訓練任務：需要找到類似LLM中「下一個字預測」那樣優雅的通用任務函數，但難度更高。
大規模資料：需要能從海量的網路影像和影片中提取深層空間訊息，並輔以合成資料和多模態資料。
新的模型架構：需要超越目前1D / 2D序列範式，發展出具備3D或4D感知的新架構（如World Labs的RTFM模型）。

五，AI應增強人類的能力，而非取代。AI應始終尊重人的自主性與尊嚴。空間智慧正是這願景的體現，它旨在賦能人類的創造力、關懷能力和科學發現。

六，空間智慧的應用將分階段展開：

近期（創造力）：賦能故事敘述、電影、遊戲和建築設計。World Labs已推出Marble平台，幫助創作者建構3D世界。
中期（機器人學）：實現「行動中的具身智慧」。世界模型將透過模擬訓練，使機器人成為人類的協作助理。
長期（科學、醫療與教育）：在藥物研發、材料科學、輔助診斷、環境感知監護、沉浸式教育等領域產生變革性影響。

七，探索空間智慧是李飛飛科學研究生涯的「北極星」。沒有空間智慧，「真正智慧機器」的夢想就無法實現。她呼籲整個AI生態系統共同努力，將這項技術用來造福全世界。

▲李飛飛。（Source：史丹佛大學）

從語言到世界：空間智慧是人工智慧的下個前線

1950年，當電腦還只是自動化運算和簡單邏輯的工具時，圖靈（Alan Turing）提出了一個至今仍迴盪的問題：機器能思考嗎？他以非凡的想像力看到大膽的可能性──智慧也許有一天不是天生的，而是能「創造」出來。這個洞見後來開啟了稱之為「人工智慧」（AI）的不懈科學探索。

她從事人工智慧研究25年，圖靈的遠見依然激勵著她。但人類離目標還有多遠？這個問題並不容易回答。

如今，領先的人工智慧技術如大型語言模型（LLM）已開始改變人類獲取和運用抽象知識的方式。然而，它們依然像在黑暗中磨字的匠人：語言優美，卻缺乏經驗；知識豐富，卻未真正立足於現實。空間智慧（Spatial Intelligence）將重新定義我們創造和體驗現實與虛擬世界的方式，它將徹底改變故事敘述、創造力、機器人、科學發現等多個領域。這正是人工智慧的下個前線。

她進入這領域後，對視覺與空間智慧的追求一直是北極星。這也是花多年時間創建ImageNet的原因，這是第一個大規模視覺學習與評測資料集，與神經網路演算法以及現代計算（如GPU圖形處理單元）一起，成為現代人工智慧誕生的三大關鍵支柱之一。過去十年，她在史丹佛大學的實驗室致力將電腦視覺與機器人學習結合。因為這個信念，李飛飛與共同創辦人Justin Johnson、Christoph Lassner、Ben Mildenhall一年多前共同創立World Labs，希望真正實現這個願景。

她將解釋什麼是空間智慧、為何重要，以及如何建構解鎖這種智慧的「世界模型」──這種能力將重新塑造創造力、具身智慧，以及人類的進步。

空間智慧：人類認知的支架

人工智慧正處於前所未有的激動人心的時刻。生成式AI模型（如大型語言模型，LLM）已從研究實驗室走進日常生活，成為數十億人用於創造、工作和溝通的工具。它們展現了曾經被認為不可能的能力——能夠輕鬆產生連貫的文字、大量的程式、逼真影像，甚至是短影片片段。如今，我們無需再問「AI是否會改變世界」，因為無論從哪個角度來看，它已經改變世界。

（Source：Image by freepik）

然而，仍有許多目標尚未實現。自主機器人的願景依舊令人著迷，但仍停留在猜想階段，距離未來學家所描繪的日常生活場景還有很遠。AI在疾病治癒、新材料發現、粒子物理等領域實現研究快速推進的夢想，也仍大體未能實現。而能真正理解並賦能人類創造者的AI──無論學習分子化學複雜概念的學生、構思空間的建築師、建構世界的電影製作人，或是追求沉浸式虛擬體驗的任何人──仍未到來。

要理解這些能力為何仍難以實現，需回溯空間智慧的演化歷程，並探討它如何塑造人類理解世界。

視覺長期以來一直是人類智慧的基石，但它的力量源自於更根本的機制。在動物能夠築巢、養育後代、使用語言交流或建立文明之前，最初那種感知的能力，即使只捕捉到一束光、一種觸感，就悄然點燃了通往智慧的進化之路。

這種看似孤立的、從外在世界提取資訊的能力，在感知與生存間搭起橋梁，也跟著世代更新不斷加強擴展。層層疊疊的神經元在橋上生長，形成了解讀世界、協調有機體與環境互動的神經系統。因此，許多科學家推測：「感知─行動」這個循環正是智慧進化的核心驅動力，也是自然創造出人類，能感知、學習、思考並行動的物種根本基礎。

空間智慧在人與物理世界互動扮演重要的角色。每天，我們都靠它完成各種看似平凡的動作：停車時想像車頭與路邊逐漸縮小的距離來判斷位置；接住從房間另一頭扔來的鑰匙；在人群密集的人行道上穿行而不相撞；或半睡半醒時不用看就能把咖啡倒進杯子。

（Source：Image By Freepik）

更極端的情境，消防員在坍塌的建築物群穿梭，煙霧瀰漫的環境憑直覺判斷結構是否穩定、如何生存，並透過手勢、身體語言及難言的職業本能交流。孩子則在學會說話前幾個月甚至幾年裡，與環境遊戲式互動來認識世界。這一切都發生得自然而然、毫不費力，卻是機器尚未掌握的「本能流暢」。

空間智慧同樣也是人類想像與創造力的基礎。說故事的人在腦中建構豐富的世界，並藉各種視覺媒介傳達給他人，從古老洞穴壁畫到現代電影，再到沉浸式電子遊戲。無論孩子在沙灘堆砌城堡，或是用電腦玩〈Minecraft〉，以空間為基礎的想像力都是現實或虛擬世界互動體驗的核心。

眾多產業中，對物體、場景及動態互動環境的模擬也成為關鍵支援，從工業設計到數位孿生，從機器人訓練到各種商業應用，空間智慧驅動無數重要場景。

縱觀歷史，空間智慧在許多奠定文明走向的關鍵時刻都發揮核心作用。

在古希臘，Eratosthenes透過觀察「影子」悟出了幾何原理，他在亞歷山大測量到陽光與地面形成的7度角，並在同一時間注意到賽恩城沒有影子，由此計算出了地球的周長。

Hargreave發明的「珍妮紡紗機」（Spinning Jenny）則透過一個空間佈局的巧思徹底革新了紡織業：他將多個紡錘並排安裝在同一架子上，讓一個工人能夠同時紡出多股紗線，進而將生產效率提高了八倍。

▲ 德國伍珀塔爾博物館的珍妮紡紗機模型。（Source：Markus Schweiß, CC BY-SA 3.0, via Wikimedia Commons）

Watson和Crick則是透過親手搭建三維分子模型，擺弄金屬板與金屬絲，最終拼出了DNA的空間結構，讓鹼基對的排列方式恰如其分地契合在一起。

在這些案例中，空間智慧都是推動人類文明前進的關鍵力量，科學家和發明家必須操控物體、想像結構，並在物理空間中進行推理，而這些過程是文字所無法完全表達的。

空間智慧，是人類認知賴以建構的「鷹架」。無論是被動觀察還是主動創造，它都在發揮作用。它驅動著我們的推理與規劃，即便面對最抽象的問題也是如此。它決定了我們與世界互動的方式——無論是語言交流還是身體行動，無論是與他人還是與環境本身的互動。

雖然我們大多數人不會每天像Eratosthenes那樣揭示自然的奧秘，但我們依然以相同的方式思考，透過感官理解複雜的世界，並憑直覺掌握其中的物理與空間規律。

遺憾的是，如今的人工智慧還無法這樣思考。

過去幾年中，人工智慧確實取得了巨大進展。多模態大型語言模型（Multimodal LLMs，簡稱MLLM）在大量多媒體資料（除了文字外還包括圖像、音訊、視訊等）的訓練下，初步具備了某種「空間感知」能力。現今的AI已能分析圖片、回答與圖片相關的問題，並產生極為逼真的影像與短影片。同時，由於感測器與觸覺技術的突破，最先進的機器人也開始能夠在高度受限的環境中操控物體和工具。

但坦白說，AI的空間能力仍遠未達到人類水準，這種差距一眼便能看出。目前最先進的MLLM模型在估算距離、方向、大小等方面的表現往往沒比隨機猜測好多少，它們也無法像人類那樣在腦海中「旋轉」物體，從不同角度重新想像其形狀。它們不能穿越迷宮、辨識捷徑，也無法預測最基本的物理規律。AI生成的影片雖然令人驚嘆，但往往在幾秒鐘後就失去連貫性。

目前的尖端AI雖然在閱讀、寫作、研究和數據模式辨識等任務中表現出色，但在理解或與物理世界互動時，卻存在根本性限制。我們對世界的感知是整體性的，不僅看到「事物本身」，還理解它們在空間上的關係、意義以及重要性。而透過想像、推理、創造和互動來理解世界，不僅僅是用語言描述，這正是空間智慧的力量所在。

缺乏這種能力，AI就無法真正與它想要理解的物理現實建立聯繫。它無法安全且有效率地駕駛汽車，無法在家庭或醫院中靈活地引導機器人，也難以為學習與娛樂提供全新的沉浸式互動體驗，更無法大幅加速材料科學或醫學領域的發現。

（Source：shutterstock）

哲學家維根斯坦（Wittgenstein）曾寫道：「我的語言的界限意味著我的世界的界限。」

我並非哲學家，但至少我知道，對人工智慧而言，世界不止於「語言」。空間智慧代表著超越語言的前沿，它是一種將想像、感知與行動連結的能力，使機器真正能夠拓展人類的生活潛能，從醫療到創造力，從科學發現到日常助理，都因此煥發新可能。

人工智慧的下一個十年：建構真正具備空間智慧的機器

那麼，我們該如何建構具有空間智慧的AI？怎樣才能讓模型既能像Eratosthenes那樣進行空間推理，又能像工業設計師那樣精確創造，像講故事的人那樣富有想像力，並像救援人員那樣在複雜環境中靈活行動？

要實現這一點，我們需要的不只是大型語言模型（LLM），而是更具雄心壯志的體系：世界模型（World Models）。這是一種全新的生成式模型，能夠在語意、物理、幾何與動態複雜的世界中——無論虛擬或現實——進行理解、推理、生成與互動，其能力遠遠超越當今的LLM。

這項研究領域尚處於萌芽階段，目前的探索方法從抽象推理模型到視訊生成系統皆有涉獵。World Labs正是在這種信念下於2024年初創立的：我們認為，基礎方法尚未確立，而這正是未來十年人工智慧發展的決定性挑戰。

▲World Labs共同創辦人，由左至右：Ben Mildenhall、Justin Johnson、Christoph Lassner、李飛飛。（Source：World Labs）

在這個新興領域中，最重要的是建立一套指導發展的核心原則。對於空間智慧而言，我將「世界模型」定義為具備以下三種關鍵能力的系統：

1. 生成性（Generative）：世界模型能夠產生具備感知、幾何與物理一致性的世界

要實現空間理解與推理，世界模型必須具備產生自身「模擬世界」的能力。它們應能根據語意或感知層面的指令，產生無限多樣的虛擬世界。這些世界無論在幾何結構、物理規律或動態變化上，都必須保持一致性，無論它們代表的是現實空間或虛擬空間。

研究界正積極探索這些世界應以內在幾何結構的隱式還是顯式形式來表示。此外，除了具備強大的潛在表示能力，我認為一個通用的世界模型還必須能夠輸出清晰可觀測的世界狀態，以適應多種應用場景。尤其重要的是，模型對「當下世界」的理解必須與「過去世界」的狀態相連貫，它要能理解世界從過去如何演變到現在。

2. 多模態性（Multimodal）：世界模型從設計上就是多模態的

就像人類與動物一樣，世界模型也應該能處理多種形式的輸入，在生成式AI領域，這些輸入被稱為「提示」（prompt）。面對不完整的資訊（如圖像、影片、深度圖、文字指令、手勢或動作），世界模型應能預測或產生盡可能完整的世界狀態。

這要求它在處理視覺輸入時具備接近真實視覺的精確度，同時在理解語意指令時同樣靈活。這樣，智慧體（agent）與人類都能透過多樣化的輸入與模型進行交流，並獲得同樣多樣化的輸出回饋。

3. 互動性（Interactive）：世界模型能夠根據輸入的動作，輸出下一步的世界狀態

最後，當「動作」或「目標」被當作輸入提示的一部分時，世界模型的輸出必須包含世界的下一狀態，這種狀態可以是隱性的，也可以是明確的。

當模型接收到一個動作（不論是否包含目標狀態）作為輸入時，它應能輸出與世界先前狀態、目標狀態（若有）、語意意義、物理規律及動態行為一致的結果。

隨著具備空間智慧的世界模型在推理與生成能力上不斷增強，可以想像，未來面對某個給定目標時，世界模型不僅能夠預測世界的下一狀態，還能基於這一新狀態預測「下一步應採取的行動」。

這項挑戰的規模，遠超過人工智慧以往所面對的一切。

語言，是人類認知中一種純粹的生成現象；而「世界」，遵循的規律卻複雜得多。以地球為例，引力決定了運動規律，原子結構影響了光線的色彩與亮度，無數的物理定律限制每一次互動。即便是最天馬行空的虛構世界，仍由遵循這些物理法則與動態行為的空間物體和智慧體所構成。要讓語意、幾何、動態與物理這幾種層面在同一模型中保持一致，需要全新的方法與想法。

世界的表示維度遠比語言這種「一維、序列訊號」複雜得多。要讓世界模型具備人類所擁有的那種通用能力，我們必須跨越多個艱鉅的技術障礙。而在World Labs，我們的研究團隊正致力於為實現這一目標奠定基礎性突破。

Generate persistent 3D worlds from a single image, bigger and better than ever!

We’re excited to share our latest results and invite you to try out our world generation model in a limited beta preview. pic.twitter.com/HkPO4E5X2g

— World Labs (@theworldlabs) September 16, 2025

以下是我們目前正在研究的一些主題範例：

一種新的通用訓練任務函數

為世界模型定義一個像大型語言模型（LLM）中「下一個詞預測」那樣簡單又優雅的通用任務函數，一直是該領域的核心目標。然而，由於世界模型的輸入與輸出空間更加複雜，因此此函數的設計難度要高得多。儘管仍有許多未知需要探索，但這種目標函數及其對應的表示方式，必須能夠體現幾何與物理規律，忠實地反映世界模型作為「連結想像與現實的有根表示」的本質。

大規模訓練數據

訓練世界模型所需的資料複雜度遠超過文字資料。好消息是，龐大的資料來源已經存在。網際網路級的圖像與視訊資源，為訓練提供了豐富、可取得的素材。真正的挑戰在於：如何開發演算法，從這些基於二維影像或視訊幀（即RGB訊號）的資料中提取更深層的空間資訊。過去十年的研究表明，語言模型的效能提升遵循「資料量與模型規模的擴展規律」；而對於世界模型來說，關鍵突破在於建立能夠在相似規模下充分利用視覺資料的模型架構。

此外，我們也不應低估高品質合成數據以及深度圖、觸覺等額外模態的價值。它們在訓練過程的關鍵階段能對網路級資料發揮補充作用。要讓這個過程更有效率，還依賴更先進的感測系統、更穩健的訊號擷取演算法，以及更強大的神經模擬技術。

新的模型架構與表徵學習

世界模型的研究必然會推動模型架構與學習演算法的革新，特別是超越目前多模態語言模型（MLLM）與視訊擴散模型的典範。現有方法通常將資料「分詞化」為一維或二維序列，這讓一些簡單的空間任務變得異常困難，例如在短影片中數清不同的椅子，或回憶一小時前房間的佈局。

新的架構可能帶來改進，例如在分詞、情境與記憶機制中引入三維或四維感知能力。舉例來說，World Labs最近開發的即時生成幀模型（RTFM）就是這種轉變的體現。該模型利用「以空間為基礎的幀」作為空間記憶單元，實現了高效的即時生成，同時在生成的世界中保持連續性與穩定性。

顯然，我們距離透過「世界建模」徹底釋放空間智慧的潛能，還有許多艱鉅的挑戰要克服。

這項研究不僅僅是理論探索，它是推動新一代創意與生產力工具的核心引擎。而在World Labs，我們已經取得了一些令人振奮的進展。

最近，我們向少量使用者展示了Marble，它是首個能夠透過多模態輸入進行提示（prompt），並產生、維持一致性三維環境的世界模型。它讓使用者與創作者能夠在這些虛擬空間中探索、互動，並將其納入創作流程中繼續擴展。我們正在努力，讓Marble盡快向公眾開放！

First test stitching together World Labs generations to build an interactive fps experience.

Every environment you see was generated from single images. How it was built: pic.twitter.com/ubMkVihfUD

— Ian Curtis (@XRarchitect) October 1, 2025

Marble只是我們邁向真正具備空間智慧的世界模式的第一步。

隨著研究的加速推進，科學研究人員、工程師、使用者和商業領袖都開始認識到這項技術的非凡潛力。下一代世界模型將讓機器實現一個全新的空間智慧層次，這將解鎖當今AI系統中仍大多缺乏的關鍵能力。

用「世界模型」建構更美好的人類世界

推動AI發展的動機至關重要。

身為參與開啟現代人工智慧時代的科學家，我的初衷始終明確：AI應當增強人類的能力，而非取而代之。

多年來，我一直致力於讓AI的發展、應用與治理更能契合人類需求。如今，關於科技烏托邦與末日論的極端敘事層出不窮，但我始終保持務實的信念：AI由人創造，為人服務，並由人類治理。它必須始終尊重人的自主性與尊嚴。AI的真正魔力在於延展我們的能力，讓我們變得更有創造力、更具連結性、更有高效，也更充實。

空間智慧正體現了這個願景：

它是一種可賦能人類創作者、照顧者、科學家與夢想家的人工智慧，幫助我們實現曾經無法實現的目標。

正是這種信念，支撐著我將「空間智慧」視為人工智慧下一個偉大前沿領域的決心。

空間智慧的應用將分階段展開。

如今，創意類工具已經開始出現，World Labs的Marble已將這些能力交到創作者與故事講述者手中。

機器人學是中期目標，我們正在不斷完善「感知—行動」循環，使機器能夠在物理世界中靈活運作。而最具變革性的科學應用可能需要更長時間，但它們的影響將深遠，足以促進人類福祉的全面提升。在這些不同的發展階段中，有若干關鍵領域特別突出，它們蘊含著重新定義人類能力的巨大潛力。

要實現這一目標，必然需要集體的努力，遠非一個團隊或一家公司所能獨立完成。這將需要整個AI生態系統的共同參與：研究者、創新者、企業家、公司甚至政策制定者，都應攜手朝著共同的願景前進。

而這個願景，值得我們為之奮鬥。

未來，將由此展開。

創造力：為說故事與沉浸式體驗賦予超級能力

「創造力就是智慧在玩耍。」這是我最喜歡的一句名言，出自我個人的英雄愛因斯坦。

在人類擁有文字之前，就已經在講故事了，在洞穴的牆壁上作畫、透過口耳相傳流傳下來，並在共同的敘事中建立起整個文化。故事幫助我們理解世界，跨越時間與空間建立聯繫，探索「人類」意味著什麼。更重要的是，它幫助我們在生命與愛中找到意義。

如今，空間智慧有潛力徹底改變我們創作和體驗故事的方式，不僅保留其根本的重要性，還將其影響力延伸至娛樂、教育、設計、建築等多個領域。

（Source：World Labs）

World Labs的Marble平台為電影製作人、遊戲設計師、建築師以及各類講故事的人，提供了前所未有的空間能力和編輯控制權，讓他們能夠快速創建並反覆迭代可自由探索的3D世界，而無需傳統3D設計軟體所需的大量投入。創作本身依舊是充滿人性和活力的行為，AI工具只是放大並加速了創作者的潛能。這包括：

多維度敘事體驗

電影人和遊戲設計師正在利用Marble建立完整的虛擬世界，不再受限於預算或地理位置。他們能探索各種場景和視角，這在傳統的製作流程中幾乎是無法實現的。隨著不同媒介和娛樂形式的界線逐漸模糊，我們正邁向全新的互動體驗形式，它融合了藝術、模擬和遊戲。一個個個人化世界，不再僅屬於大型工作室，而是任何人都可以創造和參與其中。隨著更快速的方法將創意和分鏡轉化為完整體驗，敘事將不再局限於某一種媒介，創作者可以在各種平台和介面上建立一個擁有共同線索的故事世界。

透過設計實現空間敘事

幾乎所有製造出來的物品或建造的空間，在實際成形之前都必須先進行虛擬3D設計。這個過程通常需要大量時間和金錢，且高度重複。而藉助具備空間智慧的模型，建築師可以在投入數月設計前快速視覺化結構，甚至可以「走進」還不存在的空間，講述我們未來如何生活、工作和聚會的故事。工業設計師和時尚設計師也可以立即將想像轉化為形體，探索物體如何與人體和空間互動。

全新的沉浸式與互動體驗

體驗本身，是我們人類賦予事物意義最深刻的方式之一。在人類歷史的絕大多數時間裡，我們只擁有一個立體世界：我們共同生活的現實世界。直到近幾十年，透過電子遊戲和早期的虛擬實境（VR），我們才開始窺見由人類自己創造的另一個世界。而如今，空間智慧結合虛擬實境（VR）、擴充實境（XR）頭戴裝置以及沉浸式顯示設備，使這些體驗達到了前所未有的高度。我們正走向一個未來，進入完整構建的多維世界將像翻開一本書一樣自然。空間智慧讓世界建構能力不僅屬於擁有專業製作團隊的工作室，也屬於有故事、有想法的每一個人，包括獨立創作者、教育者以及任何想要表達願景的人。

Introducing RTFM (Real-Time Frame Model): a highly efficient World Model that generates video frames in real time as you interact with it, powered by a single H100 GPU.

RTFM renders persistent and 3D consistent worlds, both real and imaginary.

Try our demo of RTFM today! pic.twitter.com/efS7qwQgQE

— World Labs (@theworldlabs) October 16, 2025

機器人技術：行動中的具身智慧

從昆蟲到人類，動物依靠空間智慧來理解、導航並與周圍世界互動，機器人也不例外。具備空間感知能力的機器一直是機器人領域的夢想，我在史丹佛的研究實驗室與學生和合作者們的工作，也正是圍繞著這個目標。這也是我對World Labs所建造的模型充滿期待的原因之一，它們有望讓這個夢想成真。

透過世界模型擴展機器人學習能力

機器人學習的進步取決於可擴展的高品質訓練資料。考慮到機器人必須學會理解、推理、規劃和互動的龐大狀態空間，許多研究者認為要真正實現通用型機器人，必須結合網路數據、合成模擬和現實世界中的人類示範數據。然而，與語言模型不同，機器人研究目前缺乏足夠的訓練資料。而世界模型將在其中發揮決定性作用。隨著其感知逼真度和運算效率的提升，世界模型的輸出可以迅速縮小模擬與現實之間的差距。這將有助於在無數種狀態、互動和環境的模擬中訓練機器人。

成為夥伴與協作助手

機器人作為人類的協作夥伴，無論是在實驗室中輔助科學家，還是在家中幫助獨居老人，都能在勞動力緊缺和生產效率亟需提升的背景下，承擔重要角色。但要實現這一點，機器人必須具備空間智慧：能夠感知、推理、規劃和行動，而且，要能與人類的目標和行為保持情感上的一致性，這一點最關鍵。例如，實驗室裡的機器人可以操作儀器，讓科學家專注於需要精細操作或邏輯推理的任務；而家用機器人可以協助老年人做飯，同時不剝奪他們的樂趣與自主性。真正具備空間智慧的世界模型，能夠預測環境的下一步狀態，甚至預測符合人類預期的動作，對於實現這一目標至關重要。

拓展具身形式的多樣性

類人機器人確實適用於我們為自己打造的世界，但技術創新的全部潛力，將體現在更豐富多樣的設計形式中：例如能夠輸送藥物的奈米機器人、可在狹小空間中活動的軟體機器人，以及為深海或外太空環境設計的專用機器。不論它們的外形如何，未來的空間智慧模型都必須整合機器人所處的環境，以及自身的感知與運動能力。但開發這些機器人面臨的核心挑戰之一，就是缺乏適用於各種具身形式的訓練資料。世界模型將在模擬資料生成、訓練環境構建，以及任務基準測試等方面，發揮關鍵作用。

（Source：shutterstock）

更長遠的視野：科學、醫療與教育

除了在創意和機器人領域的應用，空間智慧還將在其他領域產生深遠影響，特別是在那些AI可以增強人類能力、挽救生命、加速發現的地方。我在下面重點介紹三個具有變革潛力的領域，當然，空間智慧的應用遠不止於此，還將在更多行業中大展拳腳。

在科學研究中，具備空間智慧的系統可以模擬實驗、平行測試假設，並探索人類難以抵達的環境，從深海到遙遠的行星。這項技術將徹底改變氣候科學、材料研究等領域的計算建模方式。透過將多維模擬與真實世界的數據收集結合，這些工具可以降低計算門檻，擴展每個實驗室所能觀察和理解的範圍。

在醫療健康領域，空間智慧將重塑從實驗室到病床的各個環節。在史丹佛，我的學生和合作夥伴們多年來一直與醫院、養老機構以及家庭中的病人合作。這些經驗讓我深信，空間智慧在醫療中的改變潛力大。AI可以透過建模分子之間的多維互動，加速藥物研發；透過輔助放射科醫生識別醫學影像中的模式，提升診斷精度；還可以實現環境感知型的監護系統，為患者和護理人員提供支援，同時不取代醫療過程中至關重要的人際聯繫。更不用說機器人在協助醫護人員和病患方面，在多種場景中也大有可為。

（Source：Unsplash）

在教育方面，空間智慧能夠實現沉浸式學習，讓抽象或複雜的概念變得具體可感，並創造出與人類大腦和身體學習方式高度契合的、可反覆練習的學習體驗。在AI時代，無論是對學齡兒童或成年人來說，更快、更有效的學習和技能再訓練都特別關鍵。學生可以「進入」細胞機制，或親身「走過」歷史事件；教師可以藉助互動式環境實現個人化教學；而從外科醫生到工程師等專業人士，也能在逼真的模擬中安全地練習複雜技能。

雖然這些領域的應用前景幾乎沒有邊界，但我們的目標始終如一：用AI增強人類的專業能力、加速人類的發現、放大人類的關懷，而不是取代那些構成人類本質的判斷力、創造力與同理心。

結語

過去十年，人工智慧已成為全球現象，並在科技、經濟甚至地緣政治領域引發重大轉折。但身為研究者、教育者、如今也是一位創業者，最令我振奮的，仍然是圖靈在75年前提出的那個問題背後的精神。我依然懷抱著與他相同的那份好奇與敬畏之心。正是這種探索空間智慧的挑戰，成為我每天的動力來源。

在人類歷史上，我們第一次有機會打造出與物理世界高度協調的機器，使它們成為我們應對重大挑戰時真正的合作夥伴。無論是在實驗室中加速對疾病的理解、徹底改變我們講述故事的方式，還是在我們因疾病、受傷或衰老而處於最脆弱狀態時給予支援。我們正站在這項技術的門檻前，它將提升那些我們最在乎的生活體驗。這是一種更深刻、更豐富、更有力量的生活願景。

大約5億年前，大自然首次賦予古代動物空間智慧的萌芽。而今天，我們有幸成為這一代技術人中的一員，可能很快就能讓機器也擁有這種能力，並有機會將這項能力用來造福全世界人民。沒有空間智慧，我們對「真正智慧機器」的夢想就無法真正實現。

這個探索旅程，就是我心中的北極星。歡迎你與我一同追尋。

（本文由愛范兒授權轉載；首圖來源：Image by Freepik ）