亞馬遜 Alexa 首席科學家：圖靈測試對 AI 沒啥意義了

近日，亞馬遜副總裁兼 Alexa 首席科學家 Rohit Prasad 在《Fast Company》發表文章，大膽表態：圖靈測試已失去意義，是時候建立新的 AI 衡量標準了。

「機器能否思考？」是加密學和人工智慧先驅艾倫·圖靈 70 年前論文《Computing Machinery and Intelligence》的核心問題。他提出一個思想實驗，叫做「模仿遊戲」（imitation game），用於檢測電腦能否表現出與人同等或無法區分的智慧。

測試內容簡單來說是這樣：如果測試者對無法確認身分的兩個對象（一人和一機器人）提出相同的系列問題，得到的答案讓他無法區分究竟誰是機器誰是人，那麼認定機器人通過圖靈測試。當然實際測試規則更複雜，比如需要引入更多測試者等。

這思想實驗後人歸納為圖靈測試，也成為衡量人工智慧「智慧性」的最常用標準。「機器能否思考」這問題，也橫跨了一整個世紀，指導後世的電腦和人工智慧技術革新。

▲ 艾倫·圖靈。（Source：Unknown author / Public domain）

但為什麼今天，有人站出來說圖靈測試已失去意義？

首先，Prasad 指出，圖靈論文就曾預測，到了 2000 年，普通人能用圖靈測試正確區分人和機器的可能性將降到 70% 甚至更低。然而現在 2021 年都到了，雖然我們經常看到「某 AI 通過圖靈測試，分數取得新高」之類報導，圖靈當年的預測並沒有應驗。

所以也可以說，AI 研究者讓圖靈老爺子失望了。

AI 研究者也有話要說：能不能別光看圖靈測試？那完全沒有意義啊！

Prasad 表示，自己相信圖靈當年這個目標對像他這類 AI 科學家來說，並不是很有意義。AI 有更大用處的地方是植入手機、汽車和家庭，人們更關心的是 AI 能帶來哪些更新互動體驗和技術進步，而不是通過測試的分數有多高。

強求機器和人類無差別的概念，已經過時了。

機器和人天生有差別。人能隨機應變，舉一反三，都是機器普遍缺乏的能力。但機器也有長處，就是快速計算和資訊查詢的能力遠強過人類，Prasad 指出正是這些能力構成現代 AI 的核心。

電腦不如人類的地方，可用長處彌補，也取得不錯的結果。我們已經看到，在諸如視覺、自然語言處理等領域，最強的演算法已取得遠超人類的成績。

很多 AI 科學家都發現，其實讓 AI 在圖靈測試裡取得更好成績，其實很簡單，只要讓電腦的答案盡量像人就行了。比如回答時加入停頓、最佳化文法等。

正如前面提到的，電腦的長處就是快速計算和資訊查詢。這些毫無難度的問題，電腦不到 1 秒就算出或查到答案。只是回答如果慢一點，甚至故意答錯，也許就通過測試了。Prasad 認為，圖靈測試追求的，並非對 AI 長處的最佳利用。AI 明明可用來做更多事幫助人類，為何要限制自己，強行追求和人無差別呢？

且圖靈測試這麼多年來都基於文字，而機器學習各領域的技術進步已讓 AI 在視覺、聽覺、多感測器融合、決策規劃等多方面取得長足發展。最經典的例子就是 AlphaGo，足以在各種高難度博弈遊戲擊敗最頂級人類選手。這些重大進展，很難經由一成不變的圖靈測試體現。

Prasad 進一步指出，新衡量標準應該體現機器的效率優勢，如計算、搜尋、代人完成任務等，綜合評價 AI 對人類智慧帶來的幫助，而不是執迷於抹平 AI 和人的差別。

如亞馬遜舉辦的 Alexa 大賽，考察的是參選者（社群機器人）在一些社會熱門話題和人類進行連貫、有價值對話的能力。社群機器人的對話連貫性、自然程度越高，讓人類評委更願意繼續對話，得到的分數就越高。所有評判標準中，如果 AI 表現出同理心和幽默，可能會加分；但不論如何，AI 都不需要假裝成人類。

另一個例子是機器學習演算法平台 Kaggle 的「抽象和推理挑戰」，觀察參賽演算法解決前所未有推理任務的能力，也體現 AI 在知識儲備、學習、決策推理等方面的長處。

當然，每年都會召開的眾多 AI 領域學術會議，特別是這些會議的獎項，也可以幫助人們評價一篇論文的優劣。

Prasad 指出，以 Alexa 為例，身為數位助理，正在超越對話式基礎，朝環境 AI （ambient AI）前進。當需要時，AI 可回答人類的問題，當不需要時，AI 可以消失於背景，但仍有主動工作，完成人類可能意識到或沒意識到的重要任務，如基於多感測器融合的安防監控等。

在眾多科幻電影烘托下，人們嚮往更強大的「通用人工智慧」。不過隨著 AI 技術進步和更應用到現實生活，人們一邊對 AI 改善生活有更多期待，另一邊又對 AI 使用甚至濫用造成的道德困境升高警戒心。

正因如此，新 AI 衡量標準也應顧及道德、公平層面。畢竟，如果僵化性遵守圖靈測試的標準，Deepfake 可能是全世界最優秀的 AI 了。

Prasad 最後強調，他並不是否認圖靈測試，但人們需要明白的是，稱為圖靈測試的「模仿遊戲」，自始至終都是思想實驗，而非實用性人工智慧的終極測試標準。今天圖靈測試已成為老古董，過度使用的弊端不斷浮現，是時候把它放到旁邊了。

（本文由品玩授權轉載；首圖來源：shutterstock）

從這裡可透過《Google 新聞》追蹤 TechNews

科技新知，時時更新

想請我們喝幾杯咖啡？