李飛飛團隊再造黑科技,機器人自學家務樣樣精通

作者 | 發布日期 2024 年 09 月 10 日 8:00 | 分類 尖端科技 , 機器人 line share Linkedin share follow us in feedly line share
李飛飛團隊再造黑科技,機器人自學家務樣樣精通

倒茶、摺衣服、整理書籍、丟垃圾,現在的家事機器人工作真是越來越熟練了。

熟練家務的背後,是李飛飛團隊琢磨出來的新方法。他們把任務動作拆解後標記出幾個關鍵點,再給具體規則讓機器人知道這些點之間有什麼聯繫,要怎麼操作比較好。除此之外,機器人還能自主學習,越練越厲害。

以倒茶為例,機器人會先用攝影機確定茶杯茶壺等的位置、形狀等要素,再辨識出關鍵點,例如茶杯的中心點和把手的中心點,ReKep會為機器人寫出一系列規則,告訴它要用什麼角度、怎麼拿怎麼傾倒、用多大力氣等,機器人只要按照規則行動就能成功倒茶了。

不得不說,這麼簡單的動作想讓機器人做好是真的太難了。要是沒有ReKep技術,想看到機器人熟練地幹各種家務活還不知道要等到猴年馬月。

畢竟今年3月時,李飛飛團隊的家事機器人只會擦桌子、切水果;半年後的今天,就已經進化成全能選手了。

目前,李飛飛團隊關於ReKep技術的論文已在arXiv公開,程式碼也已開源。

論文概述

研究問題和動機

李飛飛團隊旨在解決與機器人操作任務相關的挑戰,這些任務涉及多個空間關係和時間依賴階段,需要對複雜的空間和時間關係進行編碼。

他們希望開發一個廣泛適用的框架,能夠適應需要多階段、野外環境、雙手操作和反應行為的任務,透過基礎模型的進展在獲取約束方面具有可擴展性,並能夠即時優化以產生複雜的操作行為。

難點與挑戰

現有的使用剛體變換表示操作任務約束的方法缺乏幾何細節,要求預先定義的物件模型,並且無法處理可變形物件。

在視覺空間中直接學習限制的資料驅動方法也在收集訓練資料時面臨挑戰,因為約束的數量在物體和任務方面呈現組合成長。

技術創新

李飛飛團隊提出了一種名為關係關鍵點約束(ReKep)的方法,用於機器人操作。

ReKep將操作任務編碼為約束,連接機器人與其環境,而無需手動標註。此方法利用Python函數將一組語意上有意義的三維關鍵點映射為數值成本,從而能夠表示複雜的空間和時間關係。

該框架旨在透過大型視覺模型和視覺-語言模型自動產生約束,實現從自然語言指令和RGB-D觀測中高效地指定任務。

他們還提出了一種演算法實例,可以即時有效地解決最佳化問題。

真實實驗

實驗涉及多個任務,包括倒茶、回收罐、整理書籍、打包盒子、摺疊衣物、裝鞋盒和協作摺疊等。這些任務被設計來測試系統在不同方面的表現,如空間和時間依賴性、對環境的適應性、雙手協調和與人類的互動。

▲ 輪式單臂平台和固定式雙臂平台的成功率。

▲ 兩個機器人平台在外部干擾下的成功率。

▲ ReKep 用於摺疊不同類別服裝的新型雙臂策略及其成功率。

實驗結果顯示,ReKep在多種任務上的成功率較高,證明了其在自動化操控任務中的潛力。成功率根據任務的不同而有所差異,但總體上表現良好。

分解與演算法即時實例化

為了即時求解最佳化問題,他們採用了分解方法,僅優化下一個子目標及其對應的路徑。

  • 子目標問題:先解決子目標問題,確定目前階段的末端執行器目標姿勢。
  • 路徑問題:在獲得子目標姿態後,解決路徑問題,規劃從目前姿態到子目標姿勢的軌跡。
  • 回溯:如果發現任何子目標限制不再滿足,系統可以回溯到先前的階段重新規劃。

關鍵點提議和ReKep生成

為了使系統能夠在給定自由形式任務指令的情況下執行野外任務,他們設計了一個使用大型視覺模型和視覺語言模型進行關鍵點提議和ReKep生成的管道,並分成了兩個部分:

關鍵點提議

使用大型視覺模型(LVM),如DINOv2,來提取場景中的特徵,並利用這些特徵來識別潛在的關鍵點。這些關鍵點通常是場景中具有語義意義的3D點,例如物體的邊緣、角落或特定物體部分的中心。

ReKep生成

結合關鍵點和任務指令,使用視覺-語言模型(VLM)來產生ReKep,這些限制將用於指導機器人的動作規劃和執行。這一步利用了視覺模型對場景的理解以及語言模型對指令的解釋能力。

團隊成員

李飛飛

李飛飛博士是史丹佛大學電腦科學系首任紅杉教授,也是史丹佛以人為本的人工智慧研究所的聯合主任,曾擔任Google副總裁和首席科學家,在多家上市公司或私人公司擔任董事會成員或顧問。

李飛飛主導的史丹佛AI實驗室、史丹佛視覺與學習實驗室(SVL)和史丹佛以人為本人工智慧研究院湧現出大量優秀人才,包括OpenAI聯合創始人Andrej Karpathy、中國第一個堅探索具身智慧的盧策吾、前Google AI中國中心總裁李佳、前阿里自動駕駛掌舵人王剛等。

她目前的研究興趣包括認知啟發式人工智慧、機器學習、深度學習、電腦視覺、機器人學習和人工智慧+醫療,尤其是用於醫療保健的環境智慧系統。

▲ 由左至右分別為:Wenlong Huang、Chen Wang(王辰)、Yunzhu Li、Ruohan Zhang

Wenlong Huang

Wenlong Huang是史丹佛大學電腦科學的博士生,由李飛飛指導,也是史丹佛視覺與學習實驗室(SVL)的成員。他於2018年獲得加州大學柏克萊分校電腦科學學士學位,指導老師是Deepak Pathak、Igor Mordatch和Pieter Abbeel。

他的研究目標是賦予機器人廣泛的泛化能力,使其能夠執行開放世界操控任務,尤其是在家庭環境中。研究興趣包括:

發展能夠充分利用網路規模資料或基於這些資料進行訓練的模型的抽象概念

發展能夠表現出廣泛泛化行為的運動技能

Chen Wang(王辰)

Chen Wang是史丹佛電腦科學學院的博士生,導師是李飛飛和C. Karen Liu。他本科就讀於上海交通大學電腦科學專業,是第一批加入盧策吾團隊研究機器人具身智慧的學生之一。

他的研究目標是製造出具有與人類一樣的靈活性和處理日常任務​​能力的機器人,因此專注於機器人學習,以實現靈巧操作、模仿人類動作以及長期規劃和控制。

Yunzhu Li

Yunzhu Li現在是哥倫比亞大學電腦科學助理教授,曾是史丹佛視覺與學習實驗室(SVL)的博士後,與李飛飛、Jiajun Wu一起工作。在北京大學本科畢業後,他在麻省理工學院計算機科學與人工智慧實驗室(CSAIL)獲得博士學位,導師是Antonio Torralba和Russ Tedrake。

目前他在機器人感知、互動和學習實驗室(RoboPIL)進行機器人技術、電腦視覺和機器學習的交叉研究,專注於機器人學習,特別是直觀物理學、具身智慧、多模式感知三個方向,旨在顯著擴展機器人的感知和物理互動能力。

Ruohan Zhang

Ruohan Zhang是史丹佛視覺與學習實驗室(SVL)的研究員,與李飛飛、Jiajun Wu、Silvio Savarese一起工作。他曾在德州大學奧斯汀分校獲得博士學位,指導教授是Dana Ballard和Mary Hayhoe。

他的長期研究興趣是以人為本的人工智慧:理解人類智慧以開發受生物啟發的人工智慧演算法,以及使人工智慧與人類更相容。最近專注於以人為本的機器人技術:透過數據驅動的方法開發可增強人類福祉的機器人解決方案(系統和演算法)。

(本文由 雷鋒網 授權轉載;首圖來源:shutterstock)

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》