李飛飛呼籲 AI 監管框架跟上科技進展,預言 AI 界的「下一件大事」

作者 | 發布日期 2025 年 02 月 22 日 10:30 | 分類 AI 人工智慧 , 名人談 line share Linkedin share follow us in feedly line share
李飛飛呼籲 AI 監管框架跟上科技進展,預言 AI 界的「下一件大事」

在巴黎 AI 行動峰會上,「AI 教母」李飛飛呼籲及早為人工智慧建立治理框架。在鼓勵創新與監管應用之間,政策平衡點何在?創立「World Labs」打造空間智慧的李飛飛,為何相信前行之路必須從大語言模型轉向「大世界模型」?

打造「ImageNet」、推動深度學習革命的電腦科學家李飛飛,在第一線見證了人工智慧的迅猛發展速度。在2月於巴黎舉辦的AI行動峰會上,她於開幕致詞中呼籲,一個整體性的治理框架必須跟上技術進展的腳步。

如何在法規監管與科學創新中尋求平衡,是AI治理的核心議題。對此,李飛飛提出三大基本原則:實證、協作與人本價值。

李飛飛主張,監管應採取務實進路。政策應是準確、可行的,而非受到聳動辯論的誤導。她表示,「治理應基於科學,而非科幻」。目前的AI在某些任務上展現強大能力,但遠非具有意識、意圖或自由意志的智慧體。

她口中的務實,也包括不過度箝制研究與創新。李飛飛認為,人工智慧還處於發展初期,應扶植創新、但防止濫用。例如,AI輔助醫療診斷可以帶來龐大效益,但應盡可能排除偏見影響。

李飛飛亦呼籲為開源社群及學界擴大取得模型與算力等資源。學界擁有高品質的教育培訓能力,企業也才有足以貢獻所長的人才來源。

在支持開放生態系、避免抑制創新上,李飛飛看法與史丹佛大學同事吳恩達(Andrew Ng)教授雷同。吳恩達認為,監管應聚焦在應用階段,也就是針對用例建立規範,而非對基礎模型開發加諸過度限制。

從語言能力邁向「空間智慧」

自神經網路模型「AlexNet」在李飛飛主籌的大規模視覺辨識競賽中奪冠,促成深度學習加速發展以來,已度過13個年頭。這段時間,電腦視覺大有進步,並轉向影像及影片生成。

在2024年創立「World Labs」的李飛飛認為,電腦接下來必須從「觀看」進展到「行動」。銜接這兩大能力的關鍵,她稱為「空間智慧」(spatial intelligence)。

顧名思義,空間智慧是AI系統能夠掌握立體世界的智慧。擁有空間智慧的機器,可以感知、理解環境,對空間與其中的事物進行推理,並與世界互動。

近年驅動生成式AI熱潮的技術,多以模仿人類語言能力的大語言模型為基礎。但李飛飛認為,視覺能力在人類理解世界的過程中,扮演更基礎的角色。

「沒有人教導兒童要如何觀看」,她在《經濟學人》寫道,「兒童透過經驗與例證理解世界」。

視覺能力與智慧能力的演化關聯性,受牛津大學動物學家派克(Andrew Parker)的「光開關理論」(light switch theory)啟發。派克認為,視覺的出現,可能是觸發寒武紀大爆發(Cambrian Explosion)的「開關」。這是地球生命史上,多細胞生物物種快速增長的一段爆發性時期。

當生物可以透過視覺能力,從環境中取得更多資訊,也隨之演化出更強的智慧能力。李飛飛認為,人工智慧也正經歷演化大爆發的階段,「我們需要從大語言模型轉移到大世界模型(large world models)。」

世界模型是AI界的「下一件大事」?

世界模型也稱為世界模擬器,其概念源自人類對世界發展出的一種心智模型。透過感官獲取關於世界的資訊,人腦產生對世界的抽象再現,並形成對世界更具體的理解。透過世界模型,人類也得以對世界狀態進行預測。

以球類運動為例,球員並沒有真正看見球移動的位置,而是在極短的時間內預測球將會抵達的位置,來進行回擊。我們可以說,擊球極度準確的球員,腦中的世界模型擁有高度準確的預測力。

在Sora等影片生成模型的早期輸出中,有時移動的物件會消失、或是融入進背景中。這顯示這些AI系統對立體世界的掌握度不足,沒有真正的理解能力。

李飛飛認為,需要透過空間智慧,打造出可以理解並做出行動的大世界模型。現實世界是立體的,且遠比語言文字更加複雜。要解鎖更加進階的機器智慧,實現更無縫的人機協作,包括正受到熱議的「AI代理」,大世界模型會是充滿希望的一步。

Meta首席AI科學家楊立昆(Yann LeCun)亦重視世界模型,勝過大語言模型。但比起將重點放在電腦視覺、3D模擬能力的李飛飛,楊立昆更重視自學習監督(SSL)與複雜規劃、預測的能力。

不過,兩者長遠的目標都是打造出更接近人類智慧水平的AI系統。尤其是更加理解世界常識、具有與世界互動能力的人工智慧。

World Labs估值十億美元,從2D邁向3D

「World Labs」在短短幾個月內就成功融資2.3億美元,估值突破十億美元。2024年底,World Labs宣布「邁向空間智慧的第一步」,發表了可以從單一影像生成3D世界的AI系統。生成的世界具穩定性,且符合基本的幾何與物理規則。

目前,這套系統已提供給創意工作者進行實驗。World Labs希望能在2025年推出第一個產品。其核心技術,預計將對遊戲、電影與設計等產業帶來最直接的影響。

打造大世界模型的一大挑戰,依然是龐大算力與資料的需求。目前也仍難以阻絕幻覺、偏見的風險。

但李飛飛相信,賦予機器「空間智慧」,將能啟動無數應用。從家居、照護到醫療(人體也是立體空間),以及結合現實與虛擬的擴增實境。人類與機器的協作關係,將前進到前所未見的境地。

(本文由 遠見雜誌 授權轉載;首圖來源:Fei-Fei Li

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》