輝達最新分享:機器人能通過物理世界的圖靈測試嗎

作者 | 發布日期 2025 年 05 月 13 日 8:00 | 分類 AI 人工智慧 , 機器人 line share Linkedin share follow us in feedly line share
Loading...
輝達最新分享:機器人能通過物理世界的圖靈測試嗎

在近日紅杉資本舉辦的 AI Ascent 2025 演講中,NVIDIA 人工智慧總監 Jim Fan 介紹了「實體圖靈測試」的概念,並解釋了大規模模擬將如何解鎖機器人技術的未來。

筆者針對其演講內容進行了梳理並編譯。

Jim Fan:

幾天前,我看到一篇部落格文章,它引起了我的注意。文章說大模型已經通過了圖靈測試,但卻沒人注意到。圖靈測試曾經是神聖不可侵犯的,對吧?它是電腦科學的聖杯,其理念是,你無法區分與你對話的是人類還是機器。

然後,我們就這麼悄無聲息地通過了圖靈測試。但當機器思考的時間多了幾秒鐘,或是雲端無法調試你糟糕的程式碼時,人們就會感到不滿。每一次突破都在平淡無奇中度過,就像又一個普通的星期二。

我想提出一個非常簡單的概念,叫做「物理圖靈測試」。設想一下,週日晚上你舉辦了一場黑客松派對,週一早上,你想找人收拾這一片狼藉,並且在晚餐時為你點上一支精美的蠟燭讓你的伴侶開心起來。而當你回到家時,卻無法分辨這一切是人類還是機器的傑作。

這就是簡單的實體圖靈測試。但我們現在進展到什麼程度了呢?快實現了嗎?看看這個類似的機器人,準備去工作,結果卻沒能做好。再看看機器狗面對香蕉皮的場景,還有被指示為你製作早餐麥片的機器人呢?

它能正確辨識牛奶,這一點我給它勉強及格。它的意圖是好的,或者說用湯匙的體驗就像是貴賓級的。看看,我都有點嫉妒了,都沒人能給我這樣的體驗。這就是我們目前的現況。那麼,為什麼解決物理圖靈測試這麼困難呢?

大家都知道,研究人員常抱怨。最近,有個叫ilia的人抱怨說,預先訓練的資料快用完了。他甚至把網路比作人工智慧的「化石燃料」,還說我們用於訓練網路的數據即將耗盡。只要和機器人專家相處一天,就知道那些深度學習研究人員有多「嬌慣」 了。

我們連「化石燃料」 都沒有。這是在英偉達總部的咖啡館進行的資料收集場景。設置了人形機器人,透過操作它們來收集數據。

這就是收集到的數據,機器人的關節控制訊號,這些是隨時間變化的連續值,無法從網路上獲取,在維基百科、YouTube 或其他任何地方都找不到。人們必須自己收集。那怎麼收集的呢?有一種非常複雜但也很昂貴的方法,叫做「遠端操作」。讓人戴上VR,辨識手部動作,並將動作訊號傳送給機器人。

透過這種方式,人類可以教機器人做事,例如從烤麵包機拿出麵包,然後在上面淋上蜂蜜。但可以想像,這是一個非常緩慢且痛苦的過程。

(Soruce:影片截圖,下同)

真正的機器人數據是「人力燃料」,而這比化石燃料還糟糕,因為這是在消耗人力。更糟的是,每個機器人每天最多只能運作24小時,甚至實際過程中遠遠達不到這個時長,因為人會累,機器人比人更容易累。

這就是現狀,那該怎麼辦呢?如何突破這個障礙?機器人領域的「核能」 在哪裡?我們需要清潔能源,不能永遠依賴「化石燃料」。於是,模擬技術登場了。

必須離開現實世界,在模擬環境中做點什麼。所以試著讓機器人的手在模擬環境中完成超越人類靈巧度的任務,例如轉筆。對我來說這是超人類的技能,因為我小時候就放棄嘗試轉筆了。

我很高興機器人至少在模擬環境中比我做得好。那麼如何訓練機器人的手完成這樣複雜的任務呢?有兩個思路。第一,模擬速度要比即時快10,000 倍,這意味著在單一GPU 上並行運行10,000個實體模擬環境。這是第一點。第二點是,這10,000個模擬環境不能完全相同,必須改變一些參數,例如重力、摩擦力和重量,我們稱之為「域隨機化」。這就是模擬的原理。

為什麼這樣做有效呢?想像一下,如果一個神經網路能夠控制機器人在1,000,000個不同的世界中完成任務,那麼它很有可能也能應付第1,000,001世界,也就是現實世界。

換句話說,現實世界是這些訓練場景的一部分。那麼如何應用呢?可以創造一個數位孿生體,也就是機器人和現實世界1:1的複製體。然後在訓練模擬中進行測試,再直接應用到現實世界,實現0樣本學習。

可以用手來舉例,這是能完成的最令人印象深刻的任務之一。例如讓機器狗站在球上,然後將訓練成果應用到現實世界。這是在加州大學柏克萊分校(UCB),有人在操控機器狗行走。研究人員想法很奇特,這場景看起來就像《黑鏡》裡的情節。

實際上,這被稱為「尤里卡博士」 項目。有個研究人員讓他的機器狗站在瑜珈球上,至少現在在機器狗的靈活性方面取得了很大進展,不過真正的狗可做不到。接下來,也可以將這種方法應用到更複雜的機器人上,例如人形機器人。

這些人形機器人透過2小時的模擬訓練,就掌握了相當於現實中10年才能學會的行走技能,並且可以將訓練成果應用到現實中。無論機器人的形態如何,只要有機器人模型,進行模擬訓練,就可以讓它學會行走。

能做的不只行走,對吧?當控制身體時,可以追蹤任何想要追蹤的點、任何關鍵部位,並跟隨任何想要的速度向量。這就是人形機器人的全身控制問題。

這非常困難,但可以透過並行運行10,000個模擬環境來進行訓練。將訓練成果零樣本、無需微調地應用到現實機器人上,這是在NVIDIA實驗室。實際上,需要放慢影片播放速度。

第一個影片是即時播放的,下一個影片是放慢後的。可以看到機器人動作的複雜性,它在保持平衡的同時做出類似人類的敏捷動作。猜猜完成這些動作需要多大規模的神經網路?

只需要150萬個參數,不是幾十億,150萬個參數就足以捕捉人體的潛意識處理過程。這個系統的推理過程,150萬個參數就夠了。如果將其放在速度與模擬多樣性的圖表中,我認為這可以稱為「模擬1.0」,也就是數位孿生範式,它使用經典的向量化物理引擎。

然後可以將模擬速度提升到每秒1萬到100萬幀。但問題是,必須創造數位孿生體,需要有人建造機器人、建造環境等等。這非常繁瑣,而且需要大量手工操作。

能不能開始產生模擬的部分內容呢?所有這些3D資源都是由3D生成模型生成的,所有的紋理來自Stable Diffusion 或其他擴散模型,所有的場景佈局由提示詞和語言模型生成,再編寫XML將它們整合在一起,構建了一個名為「Robot-CASa」 的框架,這是一個大規模的合成模擬框架。

它用於模擬日常任務,除了機器人,其他內容都是生成的。可以組合不同的場景,它仍然依賴經典引擎運行,但已經可以完成許多任務。

現在,可以再次讓人進行遠端操作,但這次是在模擬環境中,而不是在現實機器人上。在模擬環境中重現操作軌跡,並加入強大的硬體加速光線追蹤技術,讓模擬場景更加逼真。

甚至可以改變動作。例如在遠端操作時將杯子從這裡移動到那裡,不需要反覆示範同樣的動作。綜合這些,在模擬環境中進行一次人類演示,透過環境生成和動作生成,將資料量擴展n 倍,再乘以n倍。我保證這是今天需要接觸的唯一數學計算。這就是擴充數據的方法。第一列和第三列是現實機器人的真實視頻,第二列到第四列是Robot-CASa模擬生成的視頻。

仍然可以看出這些紋理不是真實的,但已經足夠接近了。把這種夠接近的情況稱為什麼呢?稱為「數位表親」 範式。它不是數位孿生體,但在一定程度上捕捉到了相似性。這個數位表親模擬運行速度較慢,但它是一種混合生成實體引擎,產生部分內容,然後將其餘部分交給經典圖形管道處理。

現在,模擬包含軟體、流體等各種元素的場景,對於藝術家或圖形工程師來說,要正確模擬這樣的場景需要很長時間。看看圖形技術的發展歷程,從早期到現在花了30年。

而視訊聯合模型只花了1年時間,就實現了從模擬簡單物體到模擬可變形物體(例如麵條)的跨越。這裡可能少了點趣味性,但這是我願意付出的代價。對於最新的Sora等策略模型,也只花了1年時間,這就是規模擴展和資料驅動過程的力量。

還記得一開始給你們看的影片嗎?這個影片裡沒有一個真實像素,它完全是由客製化模型產生的。使用通用的開源VR影片生成模型,在現實機器人實驗室收集的領域數據上進行微調,然後產生了這些內容。現在,可以透過提示詞讓模型想像不同的未來場景,模擬反事實情況。看,這兩幀畫面原本完全相同,但根據不同的語言提示,生成的影片會做出正確的反應。

即使這些動作在現實世界中從未發生過,也能實現。視訊擴散模型並不在乎場景有多複雜,也不在乎是否有流體或軟體。

同樣地,可以讓它拿起不同的東西,它會用正確的手抓取物體並放入籃子裡。這些都是生成的,沒有一個像素是真的。它還能正確模擬出各種反射效果,對吧?

所有這些交互效果都能正確模擬。我最喜歡的一個場景是機器人在那邊彈尤克里裡。基本上,影片模型可能看過數百萬人類彈尤克里裡的畫面,然後它就能模擬機器人的手指做出相應動作,即使硬體實際上並不支援。影片生成模型就能做到這一點。從這個角度來看,這就是「模擬2.0」。

它具有很高的多樣性,但目前運行速度可能較慢。沒人給它起名字,但我叫它「數位遊牧民族」,它就像是在視頻擴散模型的夢幻空間裡漫遊。

什麼是視訊擴散模型呢?它就像是將數億個網路影片壓縮成一個多元宇宙的模擬場景。很神奇,對吧?在這個夢幻空間裡創建機器人,機器人現在可以與任何地方的物體進行交互,無處不在,無​​所不能。

詹森之前離開了,但我覺得他會很喜歡這個。要擴展經典模擬,需要大量的運算資源,這也是1.x系列的情況。問題是,隨著規模的擴大,它會遇到瓶頸,因為手工製作的系統在多樣性方面有限制。

而神經世界模型,也就是模擬2.0,將隨著運算資源呈指數級擴展。這就是神經網路超越經典圖形工程師的地方。兩者相加,將成為擴展下一代機器人系統的「核能」。

那些一開始就說電腦狀況會改善而不是惡化的人,把這句話刻在視網膜上,再好好想想吧。把所有這些資料輸入到所說的視覺語言動作模型中,這個模型輸入像素和指令,輸出馬達控制訊號。

在3月NVIDIA GTC大會約翰遜(Johnson)的主題演講中開源了一個名為Groot的模型。在機器人上運行這個模型,有時候會有很神奇的效果。無法想像在訓練過程中清理了多少資料。它能夠完美地拿起香檳,做得非常好。

它還能完成一些工業任務,例如拿起工廠裡的物品,也能實現多機器人協作。Groot模型是完全開源的,實際上,未來的一系列模型也將開源,因為遵循約翰遜的開源理念,致力於讓實體人工智慧更加普及。

那麼接下來呢?在看到實體人工智慧的發展後,下一步是什麼?我認為是物理API。縱觀人類歷史,5000年來,我們擁有了更好的工具,社會也在整體上有了很大進展。但做晚餐以及進行許多手工勞動的方式,從埃及時代到現在,或多或少都沒有太大變化。

在人類歷史的99%時間裡,一直遵循這樣的模式:從原料出發,透過人類勞動建構文明。而在過去的1%,也就是大約50年裡,人類勞動佔比逐漸減少,出現了高度專業化、高度複雜的機器人系統,它們一次只能完成一項任務。

程式設計成本非常高,但它們仍然在社會中發揮作用。這就是現狀。未來是要把代表機器人勞動佔比的區域擴展到各個領域,就像語言模型API(LLM API)處理數位和位元一樣,物理API將處理原子。

基本上可以給軟體配備實體執行器,讓它改變物理世界。在實體API之上,將會出現新的經濟模式和新的範式,例如實體提示。如何指令這些機器人?如何訓練它們?

有時候語言是不夠的。還會有實體應用商店和技能經濟。比如說,米其林星級廚師不必每天都去廚房,他可以訓練機器人,然後將提供米其林星級晚餐作為一種服務。再引用一次約翰遜的話:未來,一切可移動的物體都將自動化。

有一天,回到家,會看到乾淨的沙發和點著蠟燭的晚餐,伴侶會微笑著迎接,而不是因為沒洗衣服而大喊大叫,這每天都激勵著我。上個月買了兩個人形機器人,它們運作良好。

這些機器人就像環境智慧一樣融入背景,甚至不會注意到透過實體圖靈測試的那一刻。而那一天,也只會被當作另一個普通的星期二被人們記住。

(本文由 品玩 授權轉載;首圖來源:shutterstock)

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》