OpenAI 造出一款機器手臂,50 小時就能累積 100 年的訓練量

作者 | 發布日期 2018 年 08 月 01 日 7:45 | 分類 AI 人工智慧 , 尖端科技 , 機器人 follow us in feedly

由伊隆‧馬斯克(Elon Musk)創辦的非營利性人工智慧組織 OpenAI,向外界展示了一項新的研究成果:讓機械手像人手抓取和操縱物體。雖然這種仿真造型的手掌已見過很多,但讓「手指」能和人類手一樣靈活可動,對機器結構來說不是一件簡單的事。



下面的動圖能看到,這套名為 Dactyl 的機器手臂系統能按照指令要求,輕鬆完成轉動立方體的動作,且這種包含各種技巧的指尖操作,顯然比過去看到的機器人行走跳躍複雜得多。

Dactyl 之所以能高效運作,和 OpenAI 使用的強化學習演算法有關。就像剛出生的小孩,AI 或機器人剛造出來的時候什麼都不懂,如果你希望它能完全理解某項複雜任務的流程,肯定需要反覆訓練。

尤其是對真實存在的物理機器人來說,研究人員往往要耗費大量現實時間指導其練習。

但 OpenAI 現在的做法,是完全在虛擬環境訓練 AI 機器人,然後再把 AI 應用在實體機器人身上。他們還在訓練過程增加大量動態隨機事件,讓 AI 自己領悟完成任務的訣竅。

以這次的機器手掌為例,他們會在一個控制網路教導機器手臂最基礎的翻轉指令,以及利用鏡頭,在視覺網路預估立方體的位置和方向;然後開始改變周圍環境的燈光和噪聲,還有立方體的顏色、重量、紋理和摩擦力等;甚至是改變重力環境因素。

之所以加入隨機化變量,是為了讓 AI 更能應付各種意外情況:「比如說不同的重力環境下,Dactyl 就會領悟這對立方體操控造成哪些影響。不然現實世界中,一旦我們改變手臂的高度,重力環境發生改變,立方體可能就會滑落。」

另外,由於不用模仿人類的行為,所以 OpenAI 的訓練方式也可允許 AI 充分思考人類沒有想過的方式,說不定能獲得意想不到的成果。

這種虛擬環境的訓練模式還有一個好處,就是不耗費現實世界的時間。目前 Dactyl 已積累約 100 年的訓練經驗,嘗試用無數種方法來控制立方體轉動,但實際上這個過程只​​相當於現實世界的 50 個小時而已。

在虛擬世界裡完成訓練後,AI 就可應用這些經驗分析現實世界的動態因素,並調整行為完成任務了。如今 Dactyl 已可連續完成 50 次立方體旋轉操作,且不會出錯。

值得一提的是,這種超高效訓練模式不僅能運用在物理機器人,也同樣可用於其他虛擬 AI 模型。去年 7 月,OpenAI 開發的 Open AI Five 在虛擬世界經歷上萬個小時的學習,實際上只花費了幾天時間,然後便在 Dota2 遊戲擊敗了職業選手 Dendi

雖然只是一次 Solo 對決而非 5v5,但依舊讓我們看到人工智慧在電競這種複雜領域的有效性,包括我們熟知的「圍棋殺手」 AlphaGo,也是 DeepMind 公司使用深度強化學習訓練出來的 AI 模型。

據說強化學習的靈感最早來自人類長期觀察自然界動物學習過程,之所以近幾年才開始嘗試,也是受益於神經網路技術進步,以及 OpenAI 本身的規模優勢。一旦強化學習的基準更多樣複雜,自然也得付出不小的運算成本。

按照 OpenAI 的數據,Dactyl 的訓練設備動用約 6,144 顆 CPU,以及 8 顆 Nvidia 的 V100 GPU,這種規模的基礎硬體只有很少數研究機構才能用得起。

總地來說,OpenAI 提出的「將模擬環境的成果應用到現實世界」會是開發通用機器人的有效解決方案之一,但也有機器人專家認為,這種程度的實驗結果只局限在某特定任務,能否真正解決現實世界的難題,仍然是未知數。

(本文由 愛范兒 授權轉載;圖片來源:OpenAI