Facebook 最新研究：會和世界互動的自主學習智慧體

Facebook 人工智慧研究院的研究員 Dhruv Batra 和 Devi Parikh 共同撰寫，介紹 Facebook 關於自主智慧體的最新研究成果──目標驅動自主學習──近日公開，並宣布開源 EmbodiedQA 和 House3D 資料集，以下根據原文編譯供讀者參考。

大多數能與人類互動的自主智慧體（Autonomous agents）都有一些共同點：它們並不是那麼自給自足（Self-sufficient）。如智慧喇叭（Smart speaker）雖然可以透過語音介面與人類交流並採取一些動作（如訂購產品），但它卻無法感知周圍環境。另一方面，割草機器人雖然具備動作（割草）和感知（透過感測器）能力，但除了不斷閃燈或傳送錯誤資訊，還無法達成與主人自由交流。

如果不同時具備 3 個重要的關鍵因素──感知、溝通和動作，那麼自主智慧體就無法成為全面助理，而這其中的空白代溝還需要人類彌補。這個問題對目前的智慧體來說似乎並不是什麼大毛病，如 Roomba 機器人如果不通知你有把椅子阻礙它的清潔路線，這只是一點小困難而不是什麼大災難。但為了讓下一代智慧體融入並改變我們的生活，自主系統需要更自給自足。

訓練人工智慧系統時要扔下嬰兒車

為了給幫對人類微觀管理依賴程度較低且更具通用性的系統鋪平道路，Facebook 人工智慧研究院（FAIR）開發了一系列用於訓練和測試自主智慧體的虛擬環境，以及能學習智慧探索環境的新型智慧體。這些智慧體將用做模擬機器人，是 Facebook 與喬治亞理工學院的研究員合作建立。使用虛擬智慧體和虛擬環境比起將真實機器人送到現有的室內場所要來得有效率，因為這需要花費數千台機器來符合基於 AI 訓練的執行速度。Facebook F8 會議關於透過 AI 提高內容可存取性的主題演講，簡單介紹過這項工作。

FAIR 的目標是指導系統根據長期計畫採取多種動作，同時還要努力完成給定的工作。為了取得成功，這些智慧體必須在環境中行動，綜合使用感知、導航和溝通能力搜尋問題的答案，然後使用簡單自然的語言傳達這些答案。對 AI 來說，這是極具挑戰性的問題，一旦達成，就是朝著自治邁出了一步，並且該智慧體的適應性也將足以在非架構化的人造世界發揮作用。

為了測試這種目標導向（Goal-driven）方法，FAIR 和喬治亞理工學院聯合提出一個多步驟 AI 工作，稱為「具體化問答」（Embodied Question Answering）或「EmbodiedQA」。與聊天機器人或智慧喇叭相比，此智慧體必須在物理環境（儘管是虛擬環境）學習和執行，因此稱為「具體化的」（Embodied）。當智慧體被問及單一問題時，例如「車子是什麼顏色？」或「我的鑰匙在哪個房間？」智慧體必須能理解書面語言，然後用第一人稱相機感知周圍環境，探索 3D 的室內環境直到找到答案。且為了使智慧體自主性更完善，還將透過自然語言的方式回覆該答案以完成使命。

▲ FAIR 提出一項新的 AI 工作──具體化問答（Embodied Question Answering）。圖為一 3D 環境的某個隨機位置產生一個智慧體，並給它一個問題（車是什麼顏色），為了回答這個問題，智慧體必須藉助智慧導航以探索環境，透過第一人稱（以自我為中心）視覺收集資訊，然後回答問題（橙色）。

FAIR 相信這些是第一個要求 AI 系統綜合展示感知、交流和動作以達成目標的實驗。將完全自主（智慧體在沒有人類啟動和干預的情況下做到自主活動）和不熟悉的環境結合，增加工作的挑戰性。智慧體要在隨機的、數以百計的不同樓層平面圖（每個平面都是仿照現實家庭建模）執行，且不具該環境中實踐執行過的增益，也不曾在類似地圖執行。更難的是，為了回答問題，智慧體必須行動，因為問題裡的物品也許無法立即看到。

工作中學習

為了訓練和評估這些智慧體，所需的虛擬環境不僅具備互動功能，還要具備多樣化和數量充足的特徴，以避免智慧體在相同環境反覆執行，這對自主智慧體的發展而言是更巨大的挑戰。FAIR 的解決方案稱為 House3D，是由 45,000 個手動建立的模擬室內環境組成。House3D 是基於普林斯頓大學的 SUNCG 資料集建立，但 House3D 為一完全可導航的位置集合（Fully navigable set of locations），使智慧體能同時探索數千個房間，這比在現實生活空間訓練有複雜機械架構的機器人要快得多。它也使我們可進行重複性的科學實驗，且 House3D 還開源，目前可在 GitHub 取得。

為了在 House3D 中每次都能進行獨特的尋寶活動，智慧體必須在完成工作的過程中學習一系列核心能力──從辨識室內物體（沙發、椅子等）到理解問題。

第一種習得的能力是主動感知（Active perception），或是智慧控制前面像素的能力，因為一開始目標物品不太可能剛好位於智慧體的視線範圍（影像透過 224×224 解析度的 RGB 模擬鏡頭採集）。因此，智慧體不是被動感知問題提及的物品（固定影像資料集中就是如此），而是透過探索周圍環境，主動找到目標物品。

這項研究的創新點在於做到導航的模組化，該方法將導航工作劃分成兩部分。規劃者（Planner）負責選擇行動方向，例如向左行動，控制器（Controller）則負責確定在該方向需要移動多遠。這種策略避免智慧體在行動前建立長遠又詳細的路徑規劃，因為這樣做會導致更多錯誤和更弱的適應性。此外規劃者─控制器（Planner-Controller）這套設定也更適合強化學習，智慧體將根據積極或消極回饋來動態調整導航。

▲ FAIR 的智慧體將導航工作分解為一個規劃者（PLNR）模組和一個控制器（CTRL）模組。規劃者從卷積神經網路（CNN）獲得匯入，然後決定要採取的動作，同時控制器決定繼續執行該動作的時間步變數──進而達成方向和速度之間的解耦合。這使規劃者能在更短時間內作業更有效，進而減輕訓練難度。

下一步，智慧體必須學會常識推理，然後在一個新的但並非完全陌生的環境發揮作用。儘管人們可能知道車庫往往位於房屋周圍，因此可以透過對外門進出，但 AI 系統卻需要自己學習這些知識。隨著在不同的模擬家庭成功達到目標，智慧體必須發展出常識，以縮短搜尋指定物件然後回答相關問題花費的時間。

常識積累的後續階段，智慧體還要學習語言基礎，或者是學習如何把單詞（比如針對物件的說明）與特定動作連結。例如，當為了找到可能位於車庫的汽車而搜索車庫時，智慧體不會被迫檢視每個可能的空間，直到它找到與車庫對應的一組像素為止。恰恰相反，智慧體使用「車庫」為行動指令，然後直接找到對外門，更高效地定位目標。

最後，因為 FAIR 的目標是超越繁瑣、逐步的人為監督，從微弱和遠期的目標驅動獎勵中學習，所以智慧體必須學會的最重要能力之一是「功勞分配」（Credit assignment），這意味著智慧體能知道自己一路上所做的行為哪些正確哪些錯誤。如詢問「多少個房間裡有椅子？」然後智慧體並沒有被明確告知需要檢查每個房間，甚至沒有被告知要從家中含椅子的區域開始計算。智慧體能憑自己的力量探索和回答問題，而不需要藉助人類提供的詳細逐步計畫。因此，從它是否正確回答的微弱訊號來看，必須自行學習數百項相互依賴的行動中哪項導致成功。為了增強傳統的強化學習，FAIR 使用模仿學習（Imitation learning，比對智慧體的運動與到達目標的可能最短路徑）和獎勵塑造（Reward shaping，透過「變得更近」和「變得更遠」訊號隨時間變化而改進智慧體的表現），允許智慧體把真正使命拼湊起來，即便該使命開始時並不清楚。

讓自主系統更自主

經過訓練的 EmbodiedQA 智慧體與標準串列模型基準（一個 LSTM 導航器）相比，表現相當合理。

▲ 影片比較 FAIR 開發的智慧體（名稱為 ACT+Q-RL）與基準效能表現（名稱為 LSTM+Q）。

和 House3D 一樣，FAIR 收集的 EmbodiedQA 資料將開源，旨在啟發更廣泛的 AI 研究社群的其他項目。為了給其他研究人員提供完整的背景，FAIR 將人類帶入這個方程式。FAIR 和喬治亞理工學院比較自主智慧體導航與問答的能力與遠端遙控智慧體，這些遠端遙控智慧體由人類（透過亞馬遜 Mechanical Turk 平台）操控，進而建立專家等級的基準導航範例。由此產生的資料集包括與 750 個獨特、多房間的環境相關的合成產生問題（Synthetically generated questions）。智慧體（和人類）準確性的故障以及我們使用的問答生成引擎，也將成為 EQA v1 開源版中的一部分，該版本不久就可取得。

雖然 EmbodiedQA 是只涵蓋一種目標驅動的自主工作，但卻代表人工智慧的高難度（因為它將各種的子工作合併成一個工作），並有機會探索採取「行動」的新學習範例，這是成功的先決條件。無法做決策的智慧體──在這種情況下，透過在現實家庭導航，確定它們收集到相關資料，然後傳達它們發現的內容──在實驗中無法完成工作。

這種挑戰很艱鉅，因為至關重要。短期內目標驅動的演算法可使用自動化改善 AR 和 VR 體驗，為可用介面選項添加直覺的語音互動。但這種基於行為的目標驅動方法，長期影響可能會延伸到自主性。從數位助理可根據單一指令（如不僅可預約醫生，還可重新安排衝突的會議）執行一系列家務事，到災難回應機器人遵循來自第一回應者的簡單語音指令，這種適應性的自動化，可能會對我們的生活產生重大影響。