離線也能重播經驗學習,DeepMind 讓 AI 學會「打瞌睡」

作者 | 發布日期 2017 年 08 月 14 日 14:00 | 分類 AI 人工智慧 , 尖端科技 follow us in feedly

在 AlphaGo 打敗世界頂級的圍棋選手之後,人工智慧(AI)的發展已經讓世界感到驚奇,但 DeepMind 並沒有停下腳步,根據了解,他們最近又讓 AI 具備了一項人性化的技巧──打個瞌睡,休息一下。



AI 在近代之所以能持續發展,主要得歸功於新的統計方法和電腦處理能力的進步,但 DeepMind 指出,事實上在神經網路開發的關鍵工作,多半不是由數學或物理實驗室,而是由心理學和神經科學協助開發,這兩項科學的貢獻經常被人忽視。

DeepMind 相信,神經科學能幫助驗證已存在的 AI 技術,確定技術發展是否處在正確軌道上,也能為新型演算法和架構提供豐富靈感來源,讓工程師透過了解對認知功能至關重要的生物運算資訊,來建構人工智慧的「大腦」。

近期在神經科學上,就發現了一個在「離線」狀態下重複體驗經歷的狀況:當生物處在睡眠或休息期間,大腦會重播在先前活躍期間的神經元活動序列,就好像是精神上重播過去的活動,並藉此改進未來的行為。

因此儘管乍聽之下,建造一個會「睡覺」的 AI 似乎違反直覺──畢竟 AI 理想中應該是要不眠不休的工作,但這個原則其實是 Deep Q Network(DQN)演算法中一個非常關鍵的部分。

DeepMind 表示,運用 DQN 演算法,研究人員只需要輸入原始像素和數據,就可以讓 AI 掌握雅達利(Atari)2600 上各種類型的遊戲,並且發揮如超人的水平。

之所以能做到這件事,就是因為 DQN 演算法運用經驗回放(experience replay)功能,在「離線」狀態下回顧存儲數據的訓練模擬經驗,藉以從過去發生的成功、失敗經驗中重新學習。

無論神經網路、AI 還是機器學習,研究人員正試圖做到的,就是教導電腦如何自己計算、歸究出一些結論。畢竟考量到實際應用,自駕車得對交通狀況進行決策,分析數據的演算法必須決定如何歸類資訊,AI 則得學會和人一樣思考,這些發展才真正有意義。

Google 最新提出的這個方法,意味著系統不再需要保持連線才能解決問題,它能先全力運轉弄清楚問題的重點,並在斷線後的「夢境」中整理這些資訊,然後再次連線後完成任務。

(首圖來源:shutterstock)

延伸閱讀: