在人工智慧的發展中,實體 AI(Physical AI)和世界模型(World Models)正引領著一場根本性的變革,超越了以文本為基礎的智慧系統,朝向能夠理解和互動於物理世界的系統。雖然大型語言模型(LLMs)在近期的人工智慧討論中占據了主導地位,但業界領袖們已經開始指出,未來的挑戰需要完全不同的方法。
傳統的 LLMs 在處理和生成語言方面表現出色,但它們缺乏理解物理限制、空間關係和現實世界動態的能力。這些系統僅在數位領域運作,無法解釋不確定性、運動或物理法則。因此,將 LLMs 直接應用於機器人系統或自動駕駛車輛的嘗試,往往顯得不足。
實體 AI 需要一種根本不同的架構,這種架構基於兩種互補的智慧:能夠在物理世界中行動的系統,以及理解自然法則的「人工智慧物理學」。此雙重需求促進了世界模型的出現,這些模型是基於影片和圖像資料訓練的神經網路,而非僅僅依賴文本。這些模型從大量的現實資料中學習物理世界的動態,包括幾何、運動和物理學,進而能生成現實的、符合物理規律的場景。
該轉變的關鍵技術突破在於,將生成式人工智慧基礎模型與現代模擬能力相結合。高保真度的物理建模、照片真實的渲染和並行處理,使得在部署之前能夠在虛擬環境中訓練人工智慧系統,將數年的現實測試壓縮至數週內。
市場對此變化的反應迅速。根據報導,2025 年中國公司部署了近 1.3 萬台機器人,且人型機器人的銷售年增長率達到 500%。CounterPoint Research 預測,2026 年將再增長 500%,可能部署接近 10 萬台人型機器人。包括 Nvidia、Meta 和 Google DeepMind 等主要公司已經推出世界模型平台,使機器人能夠執行複雜任務,從在不熟悉的環境中抓取物體,到在三維空間中導航和自我改進。
此技術轉變重新定義了「智慧」的含義。智慧不再僅僅透過語言理解或文本中的模式辨識來衡量,而是透過在即時中建模、預測和操控物理環境的能力來評估。業界共識也反映在 Gartner 將實體 AI 列為 2026 年頂尖戰略技術趨勢的評價中,顯示從基於雲的軟體系統,轉向具身的、具物理感知的智慧,正代表著人工智慧發展的下一個時代。
(首圖來源:shutterstock)






