Google 和加州大學柏克萊分校的新式 Actor-Critic 演算法，快速在真實世界訓練機器人

相比傳統方式需要工程人員手動設計機器人每個動作的精確參數，AI 時代的研究人員有全自動化、廣闊前景的新學習方式：深度強化學習可讓機器人從經驗、與世界的互動直接學習行為，因為可藉助通用化的神經網路表示，處理複雜的感測器輸入。然而，許多現有的強化學習演算法都需要幾天、幾週甚至更久時間的真實世界數據，才能收斂到比較理想的動作。更重要的是，這樣的系統很難在複雜的機器人系統使用（比如多足機器人）。系統的探索學習過程很容易會損傷到機器人的零件，同時還難以調節超參數，許多安全方面的考量也可能帶來更多限制。

近期，Google AI 與加州大學柏克萊分校合作研發一種新的強化學習演算法 Soft Actor-Critic（SAC）。這是一種穩定、高效的深度強化學習演算法，高度符合機器人實驗的需求，也非常適合真實世界的機器人技能學習。重點是，SAC 的學習效率夠高，可在數小時內學會解決真實世界的機器人問題，且同一套超參數可在多種不同環境工作。

Google AI 撰寫部落格文章介紹了 SAC 背後的研究工作，也介紹了相關實驗結果。

在真實世界學習機器人的要求

真實世界的機器人實驗有一些重大挑戰，比如硬體失效和人工重置會導致數據流中斷，以及需要讓探索學習過程平滑，避免快速機械磨損或撞擊破壞，這都對演算法理論和演算法實現增加額外的限制，包括以下（但不限於）：

有較高的樣本效率，以降低學習時間。
需要調節的超參數數量盡量少。
能在不同的場景重複使用已採集的數據（也稱為「無策略學習」）。
確保探索學習過程不損壞硬體。

Soft Actor-Critic

Soft Actor-Critic 是基於最大熵強化學習開發的，這是一種嘗試讓預期回報最大化（標準的強化學習目標），同時也讓策略的熵最大化的框架。熵更高的策略有更高隨機性，直覺看來，這意味著最大熵強化學習會學習取得高回報的策略中，具最高隨機性的策略。

為什麼在機器人學習這是件好事呢？明顯的原因是，最大熵優化的策略會更強健：如果策略在訓練過程中能允許高度隨機的動作，那麼它在測試時候也就更有可能順利應付預期外的擾動。不過更穩當的理由是，最大熵訓練不僅提高演算法對超參數的強健性，也可以提高採樣效率。

Soft Actor-Critic 會學習一個隨機策略，這個策略會把狀態映射到動作及一個 Q 函數，Q 函數會估計當前策略的目標價值，並透過逼近動態編程最佳化它們。透過這樣的方式，Soft Actor-Critic 可讓經過熵強化的回報最大化。在這個過程中，SAC 會把目標看作一個絕對真的方法來導出更好的強化學習演算法，它們的表現穩定，而且有夠高的樣本效率，可以用在真實世界的機器人應用中。

SAC 的表現

研究人員用兩個任務評估演算法的表現：1. Ghost Robotics 環境中 Minitaur 四足機器人的行走；2. 用一個三指動力爪轉動閥門。學習行走這件事當然是不小的挑戰，由於機器人欠驅動力，所以機器人需要學會如何在四條腿之間平衡接觸力的大小，這樣才能持續往前走。未經訓練的策略會讓機器人失去平衡摔倒，如果摔太多次，最終有可能把機器人摔壞。樣本高效學習在這時候也就非常關鍵。

雖然研究人員是在平地訓練機器人的行走策略，但稍後的測試階段是在多種不同的地面狀況和障礙物上進行。理論來說，透過 SAC 學習到的策略在測試時遇到擾動的時候，也應當強健。實際上研究人員觀察到，透過他們的方法學習到的策略，不需要任何額外學習就可應付干擾。

▲訓練。

▲測試 1。

▲測試 2。

▲ 測試 3。

下面這個操控任務需要機器手臂轉動一個類似閥門的物體，目標是讓藍色的一面朝向右側。這個任務尤其有挑戰性，不僅任務的理解感知有難度，而且還需要控制這個有 9 個自由度的機器手臂。為了感知閥門，機器人必須使用來自鏡頭的原始 RGB 圖像輸入（如圖右下角）。對於每一輪嘗試，閥門的位置都會重新設定到一個隨機角度，迫使策略學習如何根據 RGB 圖像，輸入感知當前的閥門角度。

對於這兩個任務，SAC 都能很快地解決：前一個四足機器人任務學了 2 個小時，後一個觀察圖像、轉動閥門的任務學習了 20 個小時。研究人員也為轉動閥門任務學習了一個無需圖像輸入的策略，他們把其他方式採集到的閥門角度當作觀察結果輸入策略，在這種簡單的設置下，SAC 只需要 3 個小時就可以學會解決這個任務。相比之下，更早使用自然策略梯度的研究，學習同一個無需圖像輸入的任務需花 7.4 個小時。

結論

這項研究展示基於熵最大化框架的深度強化學習，可用來在有挑戰性的真實世界環境學習機器人技能。由於這些策略是直接在真實世界學到的，它們對環境變化表現出強健性，這透過其他方式很難獲得。研究人員也展示了可直接從高維圖像觀察學習，這對經典機器人控制來說，也是很大的挑戰。研究人員希望 SAC 的發表幫助其他研究團隊，更把深度強化學習應用在未來更多複雜真實世界的任務。

（本文由雷鋒網授權轉載；首圖來源：shutterstock）