下個版本的 AlphaGo，會不會已經能認路了

2014 年上映的電影《雲端情人》（Her）中，男主角西奧多帶著搭載 AI 操作系統「莎曼珊」的手機，走在擁擠的遊樂場裡。他突然心血來潮，決定閉上眼睛，讓莎曼珊指揮他的路線。西奧多伸直手舉著手機，莎曼珊完美的指引他避開迎面而來的人群，繞過廣場的柱子，抵達他的目的地──一家披薩店。

電影裡這個場景很溫馨，單獨拿出來看，這畫面很詭異。但無論如何，這樣的功能離我們越來越近。

想做到 AI 即時指路，背後需有兩個關鍵技術。首先，AI 要能用最高效的方式辨識周圍空間；其次，它還要像人一樣，基於視線所及的圖像來「腦補」整個空間格局。

最近，AI 在這兩個能力上取得重大進展，帶頭的又是 Google 旗下的 AI 明星公司 DeepMind。

週四出版的《科學》（Science）雜誌，DeepMind 發表了一篇論文，向世界介紹名叫 GQN 的新 AI 系統。

GQN 的全稱為「Generative Query Network」，直譯為「生成式查詢網路」，改進了現有的機器視覺研究方式：目前的機器視覺在訓練時，還是依賴「吃進」人為標記好標籤的圖像數據來訓練，大部分屬於監督式學習，而 GQN 的方法則是讓機器自我訓練，屬於無監督機器學習。

這是一種更接近人類行為模式的系統：當我們走進一個空間時，可根據雙眼看到的簡單畫面，快速對所處空間有整體的認知。比如，眼睛看到的可能只是衣櫃正面，但在我們的腦中，衣櫃的全貌、在房間所處的位置、陽光下的陰影樣子，其實都已同步生成並存於腦海。

這對人類來說很簡單，但沒人能說清人類大腦如何處理這些資訊。當 AI 嘗試復刻人類大腦流程時，若依然採取輸入規則、監督式的學習方式，顯然十分困難。GQN 選擇神經網路的方法，決定讓機器自己學習，就像它們在圍棋、翻譯等領域做的那樣。

具體來看，GQN 由兩個模型構成，一個叫做表徵網路（representation network），另一個叫做生成網路（generation network）。前者其實可視為模仿人類的眼睛，後者則嘗試複製人類大腦處理空間資訊的方式。

表徵網路透過圖像感測器觀察世界，把空間中看到的二維圖像，以數據形式輸入系統，之後生成網路會基於這些數據學習，然後嘗試預測某陌生視角下這空間的樣子，渲染後以三維形式呈現。

簡單說就是，表徵網路看見一張桌子的正面，包括它的構造、顏色、高低等，然後生成網路要據此「猜出」桌子側面、底面等其他角度的樣子，就像人類無時無刻做的那樣。

由於採用無監督學習模式，表徵網路在「看」東西時並不知道生成網路最後需要從哪個視角預測，為了更幫助後者完成任務，它需要在不斷的訓練中，提升觀察和記錄能力，最終保證提供的輸入最高效。

過程中它慢慢積累經驗，對整個空間各物體之間的透視規律、陽光陰影關係等都有認知（事先並沒有任何人為干預告訴機器什麼是「顏色」、「位置」、「大小」等這些概念，全靠機器自己「開悟」），並最終用一種電腦能理解、最濃縮最高效的數據形式完成輸入。

而生成網路在一次次訓練中，將這些輸入數據再次轉換成圖像。且這圖像不再是二維，需要轉成立體的空間畫面，物體的尺寸、定位、光影關係、透視關係都要準確呈現。過程中生成網路逐漸學習成了有渲染能力的圖像神經網路。

經過一段時間自主學習後，DeepMind 測試 GQN 在虛擬環境的成果，結果驚人。

下圖是第一種測試，在一類似小廣場的簡單虛擬三維空間，GQN 的表徵網路從一個視角輸入一組二維圖像，而生成網路達成了清晰精確的三維「還原」──包括二維圖片以外的空間。

接下來，DeepMind 又做了第二種測試，有點類似念書時都做過的空間感覺測試。表徵網路對一多個立方體組成的「積木」觀察輸入，而生成網路需要回答這個物體由幾個立方體組成。GQN 也完成了測試。

第三種測試，DeepMind 把 GQN 從開放的小廣場趕到一個更複雜的「迷宮」，在這裡，視野受到限制，但 GQN 可以來回走動，找到它認為最好的視角觀測，進而幫助生成網路還原整個空間。

可以看到，GQN 就像玩拼圖，隨著表徵網路觀察角度增多，逐漸完美「腦補」出整個空間的全貌。

這已經和人類非常接近，近到有點嚇人。

DeepMind 聯合創始人、CEO 傑米斯‧哈薩比斯（Demis Hassabis）說：「GQN 已可從任何角度想像和呈現場景。」

其實，如果拉長時間來看，這次 GQN 的突破，其實是最近 DeepMind 在 AI 辨識空間方面的一系列嘗試中一環。

就在 5 月，DeepMind 曾在《自然》發文，表示他們在 AI 做到類似哺乳動物「抄近路」的導航行為。

DeepMind 在 AI 以電腦科學的方式複刻了類似人類大腦認路功能的最神祕「網格細胞」。研究指出，網格細胞（grid cell）在大腦裡提供人類一種感知向量空間的框架，讓人們可為自己導航。這個可能是人類上千年進化出來的細胞，被 AI 輕鬆復刻。

今年 4 月，DeepMind 還在 ArXiv 發表論文，宣布他們使用深度學習和神經網路代替地圖指引，讓 AI 僅依靠街景圖就了解整個城市的格局，然後找到通往目的地的路。

DeepMind 這些研究 AI 在空間和視覺方面的技能，最終很可能集合成類似 AlphaGo 的整合體，到時應用場景肯定不只是走迷宮這麼簡單。

DeepMind 就像製造機器人的拼圖師傅，一點點拼著理想中的「超級人工智慧」，然後等著人工智慧在智慧上超過人類的奇點時刻到來。

準備好向人工智慧投降吧，人類。

（本文由 PingWest 授權轉載；首圖來源：DeepMind）

從這裡可透過《Google 新聞》追蹤 TechNews

科技新知，時時更新