Facebook 提議使用 3D 導航訓練自動機器人

據外媒 Venturebeat 報導，Facebook、喬治亞理工學院和俄勒岡州立大學研究人員近日發表預印本論文，說明人工智慧的新工作──透過聽自然語言指令，在 3D 環境導航（如「走到大廳，木桌旁左轉」），他們說，這可為遵循自然語言指令的機器人助理奠定基礎。

研究人員的工作稱為連續環境的視覺和語言導航（VLN-CE），是在 Facebook 的模擬器 Habitat 進行，可訓練機器人助理於模擬真實的環境作業。直徑 0.2 公尺、1.5 公尺高的助理放在 Matterport3D 數據集內部，是透過 10,800 多個全景圖和相應 3D 網格擷取的 90 個環境集合。

機器人助理必須在一條路上做 4 個動作（向前移動 0.25 公尺，左轉或右轉 15 度，停在目標位置）之一，並學會避免被障礙物困住，如椅子和桌子。

研究小組將這些環境提煉成 4,475 條由 4~6 個節點組成的軌跡，這些軌跡對應各位置拍攝的 360 度全景影像，顯示導航能力。

他們用這個訓練兩個人工智慧模型：一個 sequence-to-sequence 模型，由採視覺觀察和指令表示的策略組成，並預測一個動作；另一個是兩個網路交叉模式注意模型，追蹤觀察結果，並根據指令和特徵決策。

研究人員表示，實驗時表現最好的機器人可遵循「向左轉，進入走廊」之類的指令，儘管這些指令要求機器人發現視覺路標前轉動未知次數。機器人在看不見的環境，約三分之一場景導航到目標位置，平均採取 88 次行動。這些機器人偶爾也會失敗，根據論文共同作者的說法，這些失敗通常是機器人視覺漏了指令提到的東西。

「最重要的是，VLN-CE 為（研究）社群提供測試平台，可研究進階和低階控制介面這類整合實驗。」作者之一寫道。

Facebook 投入大量資源解決自動機器人導航的問題。去年 6 月，公布訓練六足機器人走路的計劃後，Facebook 首次推出 PyRobot，用於 PyTorch 機器學習框架的機器人框架。2018 年，Facebook 推出開源人工智慧，透過 360 度影像在紐約市街道導航。最近 Facebook 某團隊發表論文，說明透過看影片學如何在辦公室走動的系統。

（本文由雷鋒網授權轉載；首圖來源：Facebook）