不知道你是否曾有過這樣的想法:把一切家事都交給家務機器人。說實話,這是科幻作品中經常能看到的場景。
來自舊金山的新創公司 Physical Intelligence(物理智慧,簡稱 Pi)正在致力於幫助人們實現這個夢想。這家公司近日展示了一種「接受了前所未有的資料量訓練」的人工智慧模型,它已經學會做各種家事。
Physical Intelligence 發布的影片顯示,他們的機器人可以十分靈巧地完成各種家事,包括但不限於:整理擺滿了杯子和盤子的桌面:
把咖啡豆從袋子舀到機器當中:
甚至可以組裝紙箱:
最令人深刻的是,它們可以取出烘乾機內的衣物並摺疊整齊。兩隻機械手臂如同人類的雙手一般,配合熟練:
有趣的是,該公司開發的這種演算法有時會表現出一些類似的人類的怪癖,例如搖晃 T 恤和短褲,讓它們平整地鋪開。
Physical Intelligence 的執行長 Hausman 指出,摺疊衣服對於機器人來說尤其具有挑戰性,需要更多關於物理世界的一般智慧,因為它涉及處理各種會不可預測地變形和皺摺的柔性物品。
他也表示,目前的演算法並不很穩定。就像 AI 聊天機器人有時也會「崩潰」一樣,這些「家務機器人」有時也會做出一些令人不可思議的舉動:例如它會將雞蛋塞滿已經裝不下的紙箱,把紙箱強行闔上;有一次在裝東西時,機器人突然把盒子從桌上丟了下去。
▲ Physical Intelligence CEO Hausman。(Source:Karol Hausman)
雖然演算法還不完美,但 Physical Intelligence 至少為未來的「通用家務機器人」提供了一種可能性。然而,豪斯曼的野心遠不只於此──「家務」只是其中一種用途,「通用」才是公司的雄心壯志:
我們的目標是透過一個通用模型將人工智慧帶入物理世界,基本上對於任何應用程式來講,該模型可以為任何機器人或任何物理設備提供動力。
換句話說,Physical Intelligence 的目標是創建一個類似於大型語言模型(LLMs)的物理世界模型,這是一種「通用人工智慧模型」。
他們將建構語言模型的技術與控制和指導機器的自有方法相結合,並透過訓練大量的機器人資料來實現。豪斯曼表示,他們的方法「非常通用」,可以利用來自不同機器人類型的資料進行訓練,類似於人們訓練語言模型的方式。
該公司在過去八個月中開發了其「基礎模型」,名為 π0(pi-zero)。 π0 透過使用來自多種機器人執行各種家務的數據進行訓練,公司也經常讓人類遠端操作機器人以提供必要的教學。
Pi 盼創建應用於廣泛機器人硬體的軟體
Physical Intelligence 的聯合創始人之一、加州大學柏克萊分校的副教授謝爾蓋·萊文(Sergey Levine)表示,他們訓練的資料量比以往任何機器人模型都要大得多,並且「幅度非常大」。
與其他公司如 Figure AI 和特斯拉專注於建立仿人機器人,以及像 Covariant 這樣的公司開發通用機器人軟體不同,Pi 旨在創建可應用於廣泛機器人硬體的軟體。
對此,知名科技投資者,也是 Pi 的聯合創始人之一的拉奇·格魯姆(Lachy Groom)表示「使人類變得有趣的是我們的大腦,而不是我們的硬體,我們是終極的通用主義者。」
Physical Intelligence 面臨的一個關鍵挑戰是,與大型語言模型訓練中可用的文字資料相比,用於訓練的機器人資料規模有限。因此,公司必須產生自己的數據,並想出提高從更有限數據集中學習的技巧。
實際上,為了開發 π0,公司結合了所謂的視覺語言模型(在圖像和文字上訓練)和擴散建模(從 AI 圖像生成中藉鑑的技術),以實現更通用的學習。一切的一切,都在為「通用」而努力。
對於 Physical Intelligence 的現況與未來,萊文的觀點是:
為了讓機器人能夠承擔人類要求它們做的任何雜務,這種學習需要大幅擴大。儘管還有很長的路要走,但我們有一些你可以認為是基礎框架的東西,未來的事情從中可見一斑。
但同時,萊文對 Pi 的發展充滿信心。他表示有足夠的跡象表明,在現實世界中使用機器人的最大障礙「現在已經可以解決」。