下個版本的 AlphaGo,會不會已經能認路了

作者 | 發布日期 2018 年 06 月 20 日 7:30 | 分類 AI 人工智慧 , Google , 軟體、系統 follow us in feedly

2014 年上映的電影《雲端情人》(Her)中,男主角西奧多帶著搭載 AI 操作系統「莎曼珊」的手機,走在擁擠的遊樂場裡。他突然心血來潮,決定閉上眼睛,讓莎曼珊指揮他的路線。西奧多伸直手舉著手機,莎曼珊完美的指引他避開迎面而來的人群,繞過廣場的柱子,抵達他的目的地──一家披薩店。



電影裡這個場景很溫馨,單獨拿出來看,這畫面很詭異。但無論如何,這樣的功能離我們越來越近。

想做到 AI 即時指路,背後需有兩個關鍵技術。首先,AI 要能用最高效的方式辨識周圍空間;其次,它還要像人一樣,基於視線所及的圖像來「腦補」整個空間格局。

最近,AI 在這兩個能力上取得重大進展,帶頭的又是 Google 旗下的 AI 明星公司 DeepMind。

週四出版的《科學》(Science)雜誌,DeepMind 發表了一篇論文,向世界介紹名叫 GQN 的新 AI 系統。

GQN 的全稱為「Generative Query Network」,直譯為「生成式查詢網路」,改進了現有的機器視覺研究方式:目前的機器視覺在訓練時,還是依賴「吃進」人為標記好標籤的圖像數據來訓練,大部分屬於監督式學習,而 GQN 的方法則是讓機器自我訓練,屬於無監督機器學習。

這是一種更接近人類行為模式的系統:當我們走進一個空間時,可根據雙眼看到的簡單畫面,快速對所處空間有整體的認知。比如,眼睛看到的可能只是衣櫃正面,但在我們的腦中,衣櫃的全貌、在房間所處的位置、陽光下的陰影樣子,其實都已同步生成並存於腦海。

這對人類來說很簡單,但沒人能說清人類大腦如何處理這些資訊。當 AI 嘗試復刻人類大腦流程時,若依然採取輸入規則、監督式的學習方式,顯然十分困難。GQN 選擇神經網路的方法,決定讓機器自己學習,就像它們在圍棋、翻譯等領域做的那樣。

具體來看,GQN 由兩個模型構成,一個叫做表徵網路(representation network),另一個叫做生成網路(generation network)。前者其實可視為模仿人類的眼睛,後者則嘗試複製人類大腦處理空間資訊的方式。

表徵網路透過圖像感測器觀察世界,把空間中看到的二維圖像,以數據形式輸入系統,之後生成網路會基於這些數據學習,然後嘗試預測某​陌生視角下這空間的樣子,渲染後以三維形式呈現。

簡單說就是,表徵網路看見一張桌子的正面,包括它的構造、顏色、高低等,然後生成網路要據此「猜出」桌子側面、底面等其他角度的樣子,就像人類無時無刻做的那樣。

由於採用無監督學習模式,表徵網路在「看」東西時並不知道生成網路最後需要從哪個視角預測,為了更幫助後者完成任務,它需要在不斷的訓練中,提升觀察和記錄能力,最終保證提供的輸入最高效。

過程中它慢慢積累經驗,對整個空間各物體之間的透視規律、陽光陰影關係等都有認知(事先並沒有任何人為干預告訴機器什麼是「顏色」、「位置」、「大小」等這些概念,全靠機器自己「開悟」),並最終用一種電腦能理解、最濃縮最高效的數據形式完成輸入。

而生成網路在一次次訓練中,將這些輸入數據再次轉換成圖像。且這圖像不再是二維,需要轉成立體的空間畫面,物體的尺寸、定位、光影關係、透視關係都要準確呈現。過程中生成網路逐漸學習成了有渲染能力的圖像神經網路。

經過一段時間自主學習後,DeepMind 測試 GQN 在虛擬環境的成果,結果驚人。

下圖是第一種測試,在一類似小廣場的簡單虛擬三維空間,GQN 的表徵網路從一個視角輸入一組二維圖像,而生成網路達成了清晰精確的三維「還原」──包括二維圖片以外的空間。

接下來,DeepMind 又做了第二種測試,有點類似念書時都做過的空間感覺測試。表徵網路對一多個立方體組成的「積木」觀察輸入,而生成網路需要回答這個物體由幾個立方體組成。GQN 也完成了測試。

第三種測試,DeepMind 把 GQN 從開放的小廣場趕到一個更複雜的「迷宮」,在這裡,視野受到限制,但 GQN 可以來回走動,找到它認為最好的視角觀測,進而幫助生成網路還原整個空間。

可以看到,GQN 就像玩拼圖,隨著表徵網路觀察角度增多,逐漸完美「腦補」出整個空間的全貌。

這已經和人類非常接近,近到有點嚇人。

DeepMind 聯合創始人、CEO 傑米斯‧哈薩比斯(Demis Hassabis)說:「GQN 已可從任何角度想像和呈現場景。」

其實,如果拉長時間來看,這次 GQN 的突破,其實是最近 DeepMind 在 AI 辨識空間方面的一系列嘗試中一環。

就在 5 月,DeepMind 曾在《自然》發文,表示他們在 AI 做到類似哺乳動物「抄近路」的導航行為

DeepMind 在 AI 以電腦科學的方式複刻了類似人類大腦認路功能的最神祕「網格細胞」。研究指出,網格細胞(grid cell)在大腦裡提供人類一種感知向量空間的框架,讓人們可為自己導航。這個可能是人類上千年進化出來的細胞,被 AI 輕鬆復刻。

今年 4 月,DeepMind 還在 ArXiv 發表論文,宣布他們使用深度學習和神經網路代替地圖指引,讓 AI 僅依靠街景圖就了解整個城市的格局,然後找到通往目的地的路。

DeepMind 這些研究 AI 在空間和視覺方面的技能,最終很可能集合成類似 AlphaGo 的整合體,到時應用場景肯定不只是走迷宮這麼簡單。

DeepMind 就像製造機器人的拼圖師傅,一點點拼著理想中的「超級人工智慧」,然後等著人工智慧在智慧上超過人類的奇點時刻到來。

準備好向人工智慧投降吧,人類。

(本文由 PingWest 授權轉載;首圖來源:DeepMind

延伸閱讀:

關鍵字: , , , ,