還記得紅遍網路的 ALOHA 家務機器人嗎?最近計畫導師史丹佛電腦科學與電機工程系教授 Chelsea Finn 在 X 宣布,與其他柏克萊大神學者、Google DeepMind 科學家共同創業,全力為機器人打造智慧大腦。
新公司名叫Physical Intelligence,簡稱Pi或π,目標是開發「為各種機械設備添加高級智慧的軟體」,最終構建控制任何機器人執行任何任務的通用AI模型。Chelsea Finn解釋這極具挑戰性,需整合機器人跨平台策略、從視覺和語言模型遷移學習,並透過模仿學習掌握靈活技能。
Our goal is to develop foundation models for robotics 🤖: models that can ultimately control any robot for any task
This is really hard. But we have some of the core ingredients:
– cross-platform robot policies
– transfer from VLMs, LLMs
– dextrous skills with imitation learning— Chelsea Finn (@chelseabfinn) March 12, 2024
共同創辦人兼CEO Karol Hausman也興奮表示,收集前所未見機器人數據,改進演算法和訓練超大模型,攻堅一切將AI引入物理世界所需的技術。為此他們組建一支「世界級團隊」,迫不及待開始這趟新冒險。
創立不到一個月,Pi已被OpenAI和早期投資者Khosla Ventures、美國紅杉資本、Lux Capital等多家創投機構提前鎖定,拿下7千萬美元高額融資,這不僅因為公司機器人賽道前景無比看好,更代表對創始團隊實力充滿信心。
十人團隊,人均大神,一位華人成員
Pi官網介紹是「Physical Intelligence是將通用人工智慧帶入物理世界的新公司」。「我們是一群工程師、科學家、機器人學家和公司創建者,正在開發驅動當今機器人和未來實體設備的基礎模型及學習演算法。現在還處於初期階段,歡迎有興趣的夥伴加入! 」
成員目前只有十人:Michael Equi、Adnan Esmail、Chelsea Finn、Lachy Groom、Karol Hausman、Brian Ichter、Sergey Levine、Suraj Nair、Lucy Shi、Quan Vuong。雖然展示方法「太樸素」,但團隊陣容其實相當豪華,幾乎都是大神。加入Pi以前,各自都有不小研發成果,好幾位都是業界響噹噹的名號。
首先是Chelsea Finn和Karol Hausman的另一位聯創Sergey Levine。
Sergey Levine現任UC Berkley電機工程與電腦科學系助理教授,專注研究自主智慧體透過學習獲複雜行為的通用演算法,集中機器學習決策與控制領域,並開發點到點深度神經網路訓練策略,曾帶領團隊與Google共同開發RT-X機器人專案,是強化學習領域的領頭者之一。
(Source:MIT Technology Review)
然而讓這男人揚名立萬的是「學術狂魔」之名。Sergey LevineGoogle學術引用量超過13萬,頂級國際會議和期刊發表過大量研究論文,接收量長期居前,且經常霸榜。
如NeurIPS 2019和2020他分別有12篇論文採納,名列NeurIPS榜單第一。2019年ICML論文採納量並列第二。2022年更是投稿ICML 30篇論文,並以16篇採納量斷崖式登頂作者Top1,簡直是令人聞風喪膽的「論文收割機」!
此外,Sergey Levine還是柏克萊人氣超高的「網紅教授」,成就十分突出。他開設的深度學習課程(Deep Reinforcement Learning,代號CS285)在學生中反應極為熱烈,很受歡迎。線上影片YouTube和Bilibili都可以觀看,廣為傳播。
新公司Pi「創業聲明」他說,希望為機器人領域帶來類似「大語言模型之於自然語言處理」等通用解決方案。「過去我們多次看到,機器學習在大資料庫與小資料庫的問題大不相同。我們研究很有實用性價值,相信也會為基礎研究突破打開大門。」
開頭的提到的Chelsea Finn也是共同創辦人之一。她從MIT大學畢業後在柏克萊取得博士學位,介紹學習演算法畢業論文獲2018年ACM博士論文獎,指導老師就有Sergey Levine。
(Source:Chelsea Finn)
目前Chelsea Finn擔任史丹佛大學電腦科學和電機工程助理教授,專注學習和互動發展機器人等智能體等廣泛智慧行為。如點到點視覺感知和機器人操控,從經驗學習通用技能,以及快速學習新概念和行為學習演算法等。
Chelsea的Google學術引用量雖沒有Sergey多但也很突出,超過4.9萬次。她也曾在Google Brain擔任五年研究科學家,開發機器人深度預測模型。
Pi執行長Karol Hausman是Google Brain高階科學家,同時也是史丹佛大學兼任教授,興趣為使機器人在真實世界以最小監督自動習得通用技能,並因「對可擴展的機器人學習演算法做出重大貢獻」獲2023年IEEE機器人與自動化學會行業職業獎。
(Source:Karol Hausman)
除了這三位,還有擅長機器人運動規劃和基礎模型的前Google研究科學家Brian Ichter;巴基斯坦裔傑出工程師、特斯拉前自動駕駛和硬體專家(設計Model X獨特的上翹式獵鷹門)、Anduril Industries高級副總裁兼電氣工程負責人Anduril Industries;Chelsea得意門生、豐田研究所機器學習、機器人學和計算機視覺研究科學家Suraj Nair;以及支付公司Stripe前高層、著名科技投資人Lachy Groom等業界大牛。
這份名單還有一位華人成員Lucy Shi,來自人大附中,取得USC電腦科學學士學位,現為史丹佛學生研究員,由Chelsea Finn教授指導。曾與NVIDIA 資深研究科學家兼通用具身智慧團隊負責人Yoke Zhu和資深研發經理Jim Fan合作。
最近她剛於X公開史丹佛與柏克萊合作的Yell At Your Robot(YAY Robot)計畫,展示機器人從語音糾正即時改進,據人類口語回饋學習提升,執行靈巧操作任務的研究成果。
Introducing Yell At Your Robot (YAY Robot!) 🗣️- a fun collaboration b/w @Stanford and @UCBerkeley 🤖
We enable robots to improve on-the-fly from language corrections: robots rapidly adapt in real-time and continuously improve from human verbal feedback.
YAY Robot enables… pic.twitter.com/bZeKeaQ0g1
— Lucy Shi (@lucy_x_shi) March 20, 2024
Lucy Shi個人頁面分享以「第一位實習生」身分加入Physical Intelligence的訊息。自我介紹寫道:「我對機器人學習有廣泛興趣,研究目標是創造通用型機器人,在日常生活無縫執行複雜長期任務……我深信人類的創造力和人工智慧的潛力。未來20年,我希望成為大學教授,建立新貝爾實驗室──這改變世界的創新思想工廠。」
讓我們欣喜看到又一位智慧與理想兼具、前途無量的年輕學者。
迎面而上的智慧機器人大腦締造者
科幻小說和電影,人們總夢想有真正聽懂需求的機器人,它會思考、有情緒,陪伴我們,幫助解決生活種種難題,像朋友全能。然而現實機器人雖說可在工廠搬運重物、打掃家裡,但與日益通用化的聊天機器人相比,能執行的任務範圍相對侷限。
Chatbot和LLM崛起得益於網路語料的大量資料。OpenAI和Google可透過餵養大語言模型數十億人類語言樣本訓練,但從真實世界收集類似規模資料極其困難,這也限制近年人工智慧對物理機器人的進步。
Physical Intelligence認為,現在正是採用新方法推廣通用型機器人的好時機。
Figure 01透過接入ChatGPT做到人形機器人智慧化「看聽說」互動,讓人們看到大模型與機器人結合的巨大潛力。Pi也希望建構語言模型的先進技術與自家機器控制和指令結合,創建任何硬體、任何平台可用,有廣泛任務執行能力的通用人工智慧系統。
團隊表示,Pi並不專注特定類型的機械手臂或工業機器人,而是開發用於多種型機器人的軟體。他們也不會製造硬體,創業後第一步是解決工程問題、搭建模型,以及購買各種機器人訓練,目的就是積累迄今最大規模機器人數據。
Karol Hausman接受公開採訪時強調,團隊要開發通用模型,將人工智慧從電腦帶入物理世界,「它能為任何硬體設備提供動力,任何應用。」這顯然不只是Pi的願景,除了Figure AI和特斯拉等對手競爭,幾十年來,人們也一直努力改進驅動機器人的軟體。
Pi宣布成立同週,有七年歷史、知名AI科學家Pieter Abbeel和三位博士生創立的Covariant公司就推出基礎模型RFM-1,提供類似ChatGPT的語言理解和生成能力。經過一般網路資料和豐富現實世界互動資料的共同訓練,RFM-1可讓機器人理解自然語言指令並產生正確動作,並能處理突發狀況,獲得大量好評。
如今強強聯合,正式上戰場的Pi,到了將團隊多年潛心累積的卓越成果集大成的時候了。加上OpenAI支持,能否湊齊龍珠召喚神龍,推動通用機器人開啟新時代?
「我們的目標是幫機器取得人類的基本能力。」Lachy Groom 說,「我認為建造人形機器人非常酷,但其實讓人類有趣的是大腦,而不是硬體──我們才是終極通才。」
(本文由 品玩 授權轉載;首圖來源:shutterstock)