DeepMind 新研究：讓機器自學理解圖像意義，不再依賴人為標籤資料辨識

近日，DeepMind 一篇部落格文章提到一種新的人工智慧體，可推斷數字、角色和人像的構造方式，更關鍵的是，它們是自己學會做這件事，而不是靠人工標記的資料集。

真實世界並不僅是我們眼裡反映的圖像。例如，當我們看到建築物並欣賞其設計之美時，我們也欣賞所需的技術。這種思維方式可使我們對世界有更豐富的理解，也是人類智慧的重要體現之一。

DeepMind 研究員希望系統也能創造出同樣豐富的世界表現形式。例如，觀察繪畫圖像時，希望系統能了解用於創建繪畫的筆觸，而不僅是表現在螢幕上的畫素。

在這項工作中，研究員為人造智慧體（agents）配備了人類用來生成圖像相同的工具，並證明它們可以推斷數字、人物和肖像的構造方式。更關鍵的是，它們是自學如何做到這一點，而不是透過人為標籤的資料集。這與最近的一項研究「A Neural Representation of Sketch Drawings」提到的依賴從人類經驗學習的方式恰恰相反。依賴人類經驗的學習通常很耗時。

研究員設計了一個可與計算機繪畫程序互動的深度強化學習智慧體，將筆觸放在數位畫布上並更改畫筆大小、壓力和顏色，未經訓練的智慧體畫筆很隨意，並沒有明顯的意圖或結構。為了克服這點，研究員需要創建一種獎勵方式，鼓勵 agents 生成有意義的圖片。

為此，研究員訓練了第二個神經網路，稱之為鑑別器。它唯一目的是預測特定圖形是由 agents 製作的，還是從真實照片的資料集中採樣的。agents 的獎勵是透過「欺騙」鑑別者認為它的繪畫是真實的。換句話說，agents 的獎勵信號本身就是學習的。雖然這與生成對抗網路（GAN）中使用的方法類似，但並不相同。因為 GAN 網路設置中的生成器通常是直接輸出像素的神經網路。而這裡的agents 是透過編寫圖形程式與繪圖環境互動來生成圖像。

在第一組實驗中，agents 透過訓練生成類似於 MNIST 數字的圖像：它顯示了數字的樣子，但沒有顯示它們是如何繪製的。透過嘗試生成欺騙鑑別器的圖像，agents 學會控制畫筆，並操縱它以適應不同數字的風格，這是一種稱為可視化程式合成的技術。

研究員也訓練它重現特定圖像的能力。在這裡，鑑別器的目的是確定再現圖像是否是目標圖像的副本，或者是否由 agents 產生。鑑別器越難區分，agents 得到的獎勵就越多。

最重要的是，這個框架也是可以解釋的，因為它產生了一系列控制模擬畫筆的動作。這意味著該模型可以將其在模擬繪圖程式中學到的知識，應用到其他類似環境中的字元重建中，例如用在仿造的或真實的機械手臂上。

還有可能將這個框架擴展到真實的資料集。agents 經過訓練可以繪製名人臉部表情，能夠捕捉到臉部的主要特徵，例如形狀、色調和髮型，就像街頭藝術家在使用有限數量的畫筆描繪肖像時一樣：

（Source：DeepMind）

從原始感受中提取訊息結構化表示，是人類很容易擁有並經常使用的能力。在這項工作中，研究員表明可以透過讓智慧體獲得和人類重現世界的相同工具，來指導智慧體產生類似的表示。在這樣做時，它們學會製作可視化程式，簡潔地表達因果關係，提升了它們的觀察力。儘管該工作目前僅代表了向靈活的程式合成邁出一小步，但預計需要類似的技術才能使智慧體具有類似人的認知，包括歸納概括和溝通交流等能力。