DeepMind AI 修練成精了，已經學會「發脾氣」？

DeepMind 又在「捏小人」了！這群小人是英國人工智慧實驗室 DeepMind 生產的 AI，不過只能在遊戲裡看到。但你可能不知道的是，DeepMind 還訓練過 AI 下象棋、玩足球、比電競，甚至提出人工生命言論。

最近這群AI，竟然能直接跳過數據訓練，在開放式任務環境自我進化。

之前Alpha Go和Alpha Star能力再強，也只能在各自擅長遊戲放大招，超出範圍立刻停擺。現在這批小人卻能在不同遊戲游刃有餘完成任務，展現超強的泛用能力。難道人工智慧治好泛用「頑疾」了？

在搶奪高地金字塔的任務，兩個不同顏色的小人能力值相當，都沒有跳躍能力，開始發脾氣亂扔東西，混亂中竟把其中一塊板子「扔」成樓梯，長驅直入，任務完成！

多次實驗發現，小人可複製方法，難道這群AI有記憶了？不僅如此，小人還學會「相對運動」──我上不去，你下來──借助板子直接把目標拉下來！甚至為了贏得比賽，多個小人學會配合，團體合作能力一直上升。

這種用虛擬遊戲自我進化的AI，僅需人為搭建任務環境，設計大量任務目標，利用加強深度學習，一步步打通關，最終成為十八般武藝精通的AI。

（Source：DeepMind）

沒有樣本，沒有經驗，這些AI究竟如何進化，零樣本學習是否意味這些AI具備基本的「自學意識」？

比起之前的足球場，這批AI的訓練場更像遊戲「社會」，有無數個遊戲房，每房間遊戲照競爭性、平衡性、可選性、探索難度分類。不管哪種任務，這批AI都只能從最簡單開始，一步步解鎖更複雜的遊戲，整個遊戲更像虛擬社會。

（Source：DeepMind）

無需大數據集訓的AI，每玩一次遊戲就成長一次，與各種環境互動和「獎勵」下成長為更通用的AI，更像人工「生命」。

能讓AI自我進化的關鍵在於正確設計初始智慧和進化規則。一開始都非常簡單，所有複雜結構都是進化而來。就像嬰兒不會做大人的事，任務核心是不要超出AI自身的改進能力。

據DeepMind說法，每個AI會在4千間遊戲房玩約70萬個遊戲，並在340萬個任務經歷2千億次訓練步驟。1億次步驟約耗時30分鐘。照這訓練法，41天就能訓練出一群「成年」AI。

DeepMind表示「單AI可開發智慧成多目標，不僅一個目標」。AI公司Pathmind 的CEO Chris Nicholson也說「它學到的技能可舉一反三。例AI學習抓取和操縱物體，就能完成敲鎚子或鋪床任務。DeepMind正用程式設計為AI在這世界設定目標，這些AI正在學習如何掌握。」

但南加州大學計算機科學副教授Sathyanaraya Raghavachary表示，這些AI並不能定義為「生命」，尤其關於AI擁有身體感覺、時間意識及理解目標幾個結論。「即使人類也沒有完全意識到身體這件事，更不用說人工智慧了。」

他表示，活躍的身體對大腦不可或缺，大腦要放在合適的身體意識和空間位置內進化。如果AI能理解任務，何必需要2千億次模擬訓練達到最佳結果？總體而言，虛擬環境訓練的AI只是和以往AI「大同小異」。

狹義人工智慧是「複製人類行為的元素」，在計算機內執行某種任務，如分類圖像、定位照片物件、定義對象邊界等。這些系統旨在執行特定任務，而不具解決問題的一般能力。

相比之下，Deepmind使用的「通用人工智慧」有時也稱為人類等級人工智慧，因可理解上下文、潛台詞和社會線索，甚至認為可能完全超過人類。

但正如行為主義和認知主義的對抗，AI是否有解決問題的能力，並不能只考慮統計結果。善於「事後解釋」任何行為，實驗室之外還是無法「預測」哪些行動即將發生。

（本文由雷鋒網授權轉載；首圖來源：shutterstock）