李飛飛呼籲 AI 監管框架跟上科技進展，預言 AI 界的「下一件大事」

在巴黎 AI 行動峰會上，「AI 教母」李飛飛呼籲及早為人工智慧建立治理框架。在鼓勵創新與監管應用之間，政策平衡點何在？創立「World Labs」打造空間智慧的李飛飛，為何相信前行之路必須從大語言模型轉向「大世界模型」？

打造「ImageNet」、推動深度學習革命的電腦科學家李飛飛，在第一線見證了人工智慧的迅猛發展速度。在2月於巴黎舉辦的AI行動峰會上，她於開幕致詞中呼籲，一個整體性的治理框架必須跟上技術進展的腳步。

如何在法規監管與科學創新中尋求平衡，是AI治理的核心議題。對此，李飛飛提出三大基本原則：實證、協作與人本價值。

李飛飛主張，監管應採取務實進路。政策應是準確、可行的，而非受到聳動辯論的誤導。她表示，「治理應基於科學，而非科幻」。目前的AI在某些任務上展現強大能力，但遠非具有意識、意圖或自由意志的智慧體。

她口中的務實，也包括不過度箝制研究與創新。李飛飛認為，人工智慧還處於發展初期，應扶植創新、但防止濫用。例如，AI輔助醫療診斷可以帶來龐大效益，但應盡可能排除偏見影響。

李飛飛亦呼籲為開源社群及學界擴大取得模型與算力等資源。學界擁有高品質的教育培訓能力，企業也才有足以貢獻所長的人才來源。

在支持開放生態系、避免抑制創新上，李飛飛看法與史丹佛大學同事吳恩達（Andrew Ng）教授雷同。吳恩達認為，監管應聚焦在應用階段，也就是針對用例建立規範，而非對基礎模型開發加諸過度限制。

從語言能力邁向「空間智慧」

自神經網路模型「AlexNet」在李飛飛主籌的大規模視覺辨識競賽中奪冠，促成深度學習加速發展以來，已度過13個年頭。這段時間，電腦視覺大有進步，並轉向影像及影片生成。

在2024年創立「World Labs」的李飛飛認為，電腦接下來必須從「觀看」進展到「行動」。銜接這兩大能力的關鍵，她稱為「空間智慧」（spatial intelligence）。

顧名思義，空間智慧是AI系統能夠掌握立體世界的智慧。擁有空間智慧的機器，可以感知、理解環境，對空間與其中的事物進行推理，並與世界互動。

近年驅動生成式AI熱潮的技術，多以模仿人類語言能力的大語言模型為基礎。但李飛飛認為，視覺能力在人類理解世界的過程中，扮演更基礎的角色。

「沒有人教導兒童要如何觀看」，她在《經濟學人》寫道，「兒童透過經驗與例證理解世界」。

視覺能力與智慧能力的演化關聯性，受牛津大學動物學家派克（Andrew Parker）的「光開關理論」（light switch theory）啟發。派克認為，視覺的出現，可能是觸發寒武紀大爆發（Cambrian Explosion）的「開關」。這是地球生命史上，多細胞生物物種快速增長的一段爆發性時期。

當生物可以透過視覺能力，從環境中取得更多資訊，也隨之演化出更強的智慧能力。李飛飛認為，人工智慧也正經歷演化大爆發的階段，「我們需要從大語言模型轉移到大世界模型（large world models）。」

We’ve been busy building an AI system to generate 3D worlds from a single image. Check out some early results on our site, where you can interact with our scenes directly in the browser!https://t.co/ASD6ZHMwxI

1/n pic.twitter.com/tuvGXHmepP

— World Labs (@theworldlabs) December 2, 2024