憑藉 Google 新演算法,機器人自學走路平均只需 3.5 小時

作者 | 發布日期 2020 年 03 月 10 日 8:30 | 分類 AI 人工智慧 , Google , 機器人 Telegram share ! follow us in feedly


在機器人領域,讓機器人保持站立並平穩運動一直是棘手挑戰,因為這需要超高的專業知識和設計功力。儘管一些傳統機器人能在人工控制的情況下站立和運動,但活動範圍充滿各種局限性。

為了解決這個問題,Google 近日和喬治亞理工學院及加州大學柏克萊分校的研究人員聯合發表論文,詳細介紹如何成功構建透過 AI 自學走路的機器人。他們給這台四足小機器人取了可愛的代號「Rainbow Dash」。

根據世界紀錄,嬰兒從爬行到學會走路的最快速度是 6 個月,根據論文測試數據,Rainbow Dash 平均只需約 3.5 小時學習向前、向後和左右轉彎等運動──在堅硬平坦的地面,機器人學走路需 1.5 小時,記憶海綿材質的床墊約要 5.5 小時,鏤空地毯約要 4.5 小時。

(Source:論文

具體來說,機器人使用深度強化學習,即結合深度學習和強化學習兩種不同類型的 AI 技術。透過深度學習,系統可處理和評估來自身處環境的原始輸入數據;透過強化學習,演算法可反覆試驗,以學習如何執行任務,並根據完成程度獲得獎勵和懲罰。也就是說,透過上述方式,機器人便可在不了解的環境做到自動控制。

以往此類實驗,研究人員最初都會讓機器人透過模擬學習真實世界環境。在仿真環境,機器人的虛擬體首先與虛擬環境互動,然後演算法接收虛擬數據,直到系統有能力「應付自如」,搭載系統的物理形態機器人才會放到現實環境實驗。這種方法有助於避免試錯過程損害機器人及環境。

不過,環境雖然容易建模,但通常耗時長,且現實充滿各種意想不到的情況,因此,在模擬環境訓練機器人的意義有限。畢竟,此類研究的最終目標都是讓機器人為現實場景做好準備。

Google 和喬治亞理工學院及加州大學柏克萊分校研究人員並沒有守舊,實驗一開始就在真實環境訓練 Rainbow Dash,這樣一來,機器人不僅很能適應所處環境,也能適應相似環境。

儘管 Rainbow Dash 能獨立運動,並不代表研究人員可撒手不管。在陌生環境學走一開始,研究人員仍需手動干預 Rainbow Dash 上百次。為了解決問題,研究人員限定機器人運動的環境,讓其一次性訓練多重動作。

Rainbow Dash 自學走路之後,研究人員可透過連接控制手把操控機器人做出理想的運動軌跡,將機器人控制在設定環境內。此外,機器人辨識出環境邊界後,也會自動往回走。在特定環境之外,機器人可能會一直摔倒導致機器損壞,那時就需要另一個演算法幫助機器人站起來。

Google 負責人 Jan Tan 告訴媒體,這項研究花費約一年才完成。他說:

我們有興趣讓機器人在各種複雜的現實世界環境運動。不過,要設計出能靈活處理多樣性和複雜性的運動控制器十分困難。

接下來,研究人員希望演算法能適用不同種類機器人,或適用多個機器人在同環境同時學習。研究人員相信,破解機器人的運動能力將是解鎖更多實用機器人的關鍵──人類用腿走路,如果機器人不會用腿,就不能在人類世界行走。

然而,讓機器人在人類世界行走是至關重要的課題,因它們可代替人類探索地球不同地形或未探索過的地區,如太空,但由於機器人依賴上方的動作捕捉系統以確定位置,暫時還不能直接在現實世界使用。

(本文由 雷鋒網 授權轉載;首圖來源:影片截圖)