Google 和加州大學柏克萊分校的新式 Actor-Critic 演算法,快速在真實世界訓練機器人

作者 | 發布日期 2019 年 01 月 23 日 13:16 | 分類 AI 人工智慧 , Google , 機器人 line share follow us in feedly line share
Google 和加州大學柏克萊分校的新式 Actor-Critic 演算法,快速在真實世界訓練機器人


相比傳統方式需要工程人員手動設計機器人每個動作的精確參數,AI 時代的研究人員有全自動化、廣闊前景的新學習方式:深度強化學習可讓機器人從經驗、與世界的互動直接學習行為,因為可藉助通用化的神經網路表示,處理複雜的感測器輸入。然而,許多現有的強化學習演算法都需要幾天、幾週甚至更久時間的真實世界數據,才能收斂到比較理想的動作。更重要的是,這樣的系統很難在複雜的機器人系統使用(比如多足機器人)。系統的探索學習過程很容易會損傷到機器人的零件,同時還難以調節超參數,許多安全方面的考量也可能帶來更多限制。

近期,Google AI 與加州大學柏克萊分校合作研發一種新的強化學習演算法 Soft Actor-Critic(SAC)。這是一種穩定、高效的深度強化學習演算法,高度符合機器人實驗的需求,也非常適合真實世界的機器人技能學習。重點是,SAC 的學習效率夠高,可在數小時內學會解決真實世界的機器人問題,且同一套超參數可在多種不同環境工作。

Google AI 撰寫部落格文章介紹了 SAC 背後的研究工作,也介紹了相關實驗結果。

在真實世界學習機器人的要求

真實世界的機器人實驗有一些重大挑戰,比如硬體失效和人工重置會導致數據流中斷,以及需要讓探索學習過程平滑,避免快速機械磨損或撞擊破壞,這都對演算法理論和演算法實現增加額外的限制,包括以下(但不限於):

  • 有較高的樣本效率,以降低學習時間。
  • 需要調節的超參數數量盡量少。
  • 能在不同的場景重複使用已採集的數據(也稱為「無策略學習」)。
  • 確保探索學習過程不損壞硬體。

Soft Actor-Critic

Soft Actor-Critic 是基於最大熵強化學習開發的,這是一種嘗試讓預期回報最大化(標準的強化學習目標),同時也讓策略的熵最大化的框架。熵更高的策略有更高隨機性,直覺看來,這意味著最大熵強化學習會學習取得高回報的策略中,具最高隨機性的策略。

為什麼在機器人學習這是件好事呢?明顯的原因是,最大熵優化的策略會更強健:如果策略在訓練過程中能允許高度隨機的動作,那麼它在測試時候也就更有可能順利應付預期外的擾動。不過更穩當的理由是,最大熵訓練不僅提高演算法對超參數的強健性,也可以提高採樣效率。

Soft Actor-Critic 會學習一個隨機策略,這個策略會把狀態映射到動作及一個 Q 函數,Q 函數會估計當前策略的目標價值,並透過逼近動態編程最佳化它們。透過這樣的方式,Soft Actor-Critic 可讓經過熵強化的回報最大化。在這個過程中,SAC 會把目標看作一個絕對真的方法來導出更好的強化學習演算法,它們的表現穩定,而且有夠高的樣本效率,可以用在真實世界的機器人應用中。

SAC 的表現

研究人員用兩個任務評估演算法的表現:1. Ghost Robotics 環境中 Minitaur 四足機器人的行走;2. 用一個三指動力爪轉動閥門。學習行走這件事當然是不小的挑戰,由於機器人欠驅動力,所以機器人需要學會如何在四條腿之間平衡接觸力的大小,這樣才能持續往前走。未經訓練的策略會讓機器人失去平衡摔倒,如果摔太多次,最終有可能把機器人摔壞。樣本高效學習在這時候也就非常關鍵。

雖然研究人員是在平地訓練機器人的行走策略,但稍後的測試階段是在多種不同的地面狀況和障礙物上進行。理論來說,透過 SAC 學習到的策略在測試時遇到擾動的時候,也應當強健。實際上研究人員觀察到,透過他們的方法學習到的策略,不需要任何額外學習就可應付干擾。

▲訓練。

▲測試 1。

▲測試 2。

▲ 測試 3。

下面這個操控任務需要機器手臂轉動一個類似閥門的物體,目標是讓藍色的一面朝向右側。這個任務尤其有挑戰性,不僅任務的理解感知有難度,而且還需要控制這個有 9 個自由度的機器手臂。為了感知閥門,機器人必須使用來自鏡頭的原始 RGB 圖像輸入(如圖右下角)。對於每一輪嘗試,閥門的位置都會重新設定到一個隨機角度,迫使策略學習如何根據 RGB 圖像,輸入感知當前的閥門角度。

對於這兩個任務,SAC 都能很快地解決:前一個四足機器人任務學了 2 個小時,後一個觀察圖像、轉動閥門的任務學習了 20 個小時。研究人員也為轉動閥門任務學習了一個無需圖像輸入的策略,他們把其他方式採集到的閥門角度當作觀察結果輸入策略,在這種簡單的設置下,SAC 只需要 3 個小時就可以學會解決這個任務。相比之下,更早使用自然策略梯度的研究,學習同一個無需圖像輸入的任務需花 7.4 個小時。

結論

這項研究展示基於熵最大化框架的深度強化學習,可用來在有挑戰性的真實世界環境學習機器人技能。由於這些策略是直接在真實世界學到的,它們對環境變化表現出強健性,這透過其他方式很難獲得。研究人員也展示了可直接從高維圖像觀察學習,這對經典機器人控制來說,也是很大的挑戰。研究人員希望 SAC 的發表幫助其他研究團隊,更把深度強化學習應用在未來更多複雜真實世界的任務。

(本文由 雷鋒網 授權轉載;首圖來源:shutterstock)