DeepMind：人腦前額皮質藏了一個強化學習系統

最近，AI 系統已學會一系列遊戲玩法，如雅達利經典遊戲《Breakout》和《乓》（Pong）。儘管令人印象深刻，但其實人工智慧需要數千小時的遊戲時間才能達到並超越人類玩家。相比之下，我們可在幾分鐘內掌握以前從未玩過的遊戲基礎操作。DeepMind 研究了這個問題，論文《Prefrontal cortex as a meta-reinforcement learning system》發表在《自然》神經科學子刊。隨著論文發表，DeepMind 也寫了一篇解讀文章，介紹論文主要內容，以下編譯供讀者參考。

什麼是學習？

人類只接受這麼少的資訊就能做這麼多事，這項能力牽扯到學習理論，或叫「學會學習」。我們日常的學習有兩個時間尺度，短期學習專注於學習具體的例子，長期學習中，我們通常要學會抽象的規律和技巧來完成工作。我們之所以能高效學習及靈活快速應用各種知識，正是因為這兩種學習組合。AI 系統重現這種學習架構或叫強化學習，對達到快速、一次性學習有卓越成效（詳見 OpenAI 的論文及工作）。但學習過程具體的機制，在神經科學依舊是未解之謎。

Jane Wang 團隊新發表在《自然》神經科學子刊的論文，在 AI 研究使用強化學習架構來探究大腦多巴胺在人類學習過程的作用。多巴胺通常認為是大腦的愉悅訊號，也經常認為類似 AI 強化學習演算法的獎勵函數。這些 AI 系統就是在獎勵指導下反覆試驗。他們認為多巴胺的作用不僅當作獎勵來評估過去行為的價值，在前額葉皮質區也發揮不可或缺的作用，使人類能有效快速及靈活地學習新工作。

引入神經科學

他們透過虛擬重建神經科學領域的 6 個學習實驗來測試理論。每個實驗都需要一個代理程式來執行基本原則（技能）相同，但在某些維度不同的工作。他們先使用標準深度強化學習技術（代表多巴胺的作用）訓練一個遞迴神經網路（代表前額葉皮質），然後再比較遞迴網路的活動動態與以前神經科學實驗真實資料的異同。遞迴網路是學習的優秀代理程式，因它們能內化過去的行為和觀察，然後訓練其他工作時借鑑這些經驗。

類似 1940 年代的心理學測試：Harlow 實驗，他們重新建立了一個實驗來探索學習的概念。最初的 Harlow 實驗中，一組猴子面前有兩種物品可選，其中一個是食物獎勵，實驗人員將這兩個物品一左一右在猴子面前展示 6 次，每次左右位置都是隨機，所以猴子必須知道哪個物品可帶來食物獎勵。然後研究人員又展示另外兩個物品，依舊只有一個會有食物獎勵。這次訓練過程，猴子學會一種策略來選擇獎勵關聯物品：第一次隨機選擇，然後基於獎勵回饋選擇特定物品，並不在乎物品放在左邊還是右邊。實驗表明，猴子可領悟工作的基本原理，並學會抽象的規則架構，這其實就是學會學習。

當 Jane Wang 團隊使用虛擬電腦螢幕和隨機選擇的影像模擬非常相似的測試時，他們發現強化學習代理程式的學習方式就像 Harlow 實驗的猴子，即使換新影像代理程式也能像猴子很快適應。

（Source：DeepMind）

事實上，他們發現強化學習代理程式學會如何快速適應不同規則和架構的工作，且在學會適應各種工作的過程中，還學會了提高學習效率的通用方法。

學習與神經科學互相指導

重要的是，大多數學習都產生在遞迴網路，這為他們的看法提供了有力支撐，即多巴胺在學習過程扮演超越以往認知的更重要角色。多巴胺可透過加強前額系統的突觸聯繫來增強特定行為。在 AI 系統，這意味著神經網路的類多巴胺獎勵訊號可以調整人工突觸權重，使系統學到解決工作的正確方法。然而 Jane Wang 團隊的實驗，神經網路的權重被凍結了，這意味著權重在學習過程無法調整，然而，強化學習代理程式仍然能解決並適應新工作。這表明類多巴胺獎勵不僅用於調整權重，還傳達和編碼了抽象工作和規則架構的重要資訊，進而使系統更快適應新工作。

神經科學家很早就觀察到類似的前額葉皮質神經觸發型態，他們發現這種型態適應性強且很靈活，之後他們一直努力搜尋這種現象的原因。其中一種看法是前額葉皮質不依賴緩慢的突觸權重變化來學習規則架構，而是透過直接由多巴胺編碼、基於抽象模型的資訊來學習規則架構，這更能解釋多巴胺的功能多樣性。

為了證明強化學習的關鍵成分也存在大腦裡，Jane Wang 團隊提出一種理論，不僅與多巴胺和前額皮質的理論相符，且還可解釋一系列神經科學和心理學的神祕發現。該理論重點揭示了大腦基於模型的架構化學習如何出現，為什麼多巴胺含有基於模型的資訊，以及前額葉皮質的神經元如何根據學習訊號調整。人工智慧的洞察力可用來解釋神經科學和心理學的發現，也提升了每個領域研究成果的價值。展望未來，他們在設計新強化學習模型時，可從具體的大腦迴路組織獲得靈感，神經科學與 AI 相得益彰。

（本文由雷鋒網授權轉載；首圖來源：Flickr/affen ajlfe CC BY 2.0）