亞馬遜 Alexa 首席科學家:圖靈測試對 AI 沒啥意義了

作者 | 發布日期 2021 年 01 月 07 日 8:15 | 分類 AI 人工智慧 Telegram share ! follow us in feedly


近日,亞馬遜副總裁兼 Alexa 首席科學家 Rohit Prasad 在《Fast Company》發表文章,大膽表態:圖靈測試已失去意義,是時候建立新的 AI 衡量標準了。

「機器能否思考?」是加密學和人工智慧先驅艾倫·圖靈 70 年前論文《Computing Machinery and Intelligence》的核心問題。他提出一個思想實驗,叫做「模仿遊戲」(imitation game),用於檢測電腦能否表現出與人同等或無法區分的智慧。

測試內容簡單來說是這樣:如果測試者對無法確認身分的兩個對象(一人和一機器人)提出相同的系列問題,得到的答案讓他無法區分究竟誰是機器誰是人,那麼認定機器人通過圖靈測試。當然實際測試規則更複雜,比如需要引入更多測試者等。

這思想實驗後人歸納為圖靈測試,也成為衡量人工智慧「智慧性」的最常用標準。「機器能否思考」這問題,也橫跨了一整個世紀,指導後世的電腦和人工智慧技術革新。

▲ 艾倫·圖靈。(Source:Unknown author / Public domain)

但為什麼今天,有人站出來說圖靈測試已失去意義?

首先,Prasad 指出,圖靈論文就曾預測,到了 2000 年,普通人能用圖靈測試正確區分人和機器的可能性將降到 70% 甚至更低。然而現在 2021 年都到了,雖然我們經常看到「某 AI 通過圖靈測試,分數取得新高」之類報導,圖靈當年的預測並沒有應驗。

所以也可以說,AI 研究者讓圖靈老爺子失望了。

AI 研究者也有話要說:能不能別光看圖靈測試?那完全沒有意義啊!

圖靈測試無法體現 AI 進步

Prasad 表示,自己相信圖靈當年這個目標對像他這類 AI 科學家來說,並不是很有意義。AI 有更大用處的地方是植入手機、汽車和家庭,人們更關心的是 AI 能帶來哪些更新互動體驗和技術進步,而不是通過測試的分數有多高。

強求機器和人類無差別的概念,已經過時了。

機器和人天生有差別。人能隨機應變,舉一反三,都是機器普遍缺乏的能力。但機器也有長處,就是快速計算和資訊查詢的能力遠強過人類,Prasad 指出正是這些能力構成現代 AI 的核心。

電腦不如人類的地方,可用長處彌補,也取得不錯的結果。我們已經看到,在諸如視覺、自然語言處理等領域,最強的演算法已取得遠超人類的成績。

很多 AI 科學家都發現,其實讓 AI 在圖靈測試裡取得更好成績,其實很簡單,只要讓電腦的答案盡量像人就行了。比如回答時加入停頓、最佳化文法等。

正如前面提到的,電腦的長處就是快速計算和資訊查詢。這些毫無難度的問題,電腦不到 1 秒就算出或查到答案。只是回答如果慢一點,甚至故意答錯,也許就通過測試了。Prasad 認為,圖靈測試追求的,並非對 AI  長處的最佳利用。AI 明明可用來做更多事幫助人類,為何要限制自己,強行追求和人無差別呢?

且圖靈測試這麼多年來都基於文字,而機器學習各領域的技術進步已讓 AI 在視覺、聽覺、多感測器融合、決策規劃等多方面取得長足發展。最經典的例子就是 AlphaGo,足以在各種高難度博弈遊戲擊敗最頂級人類選手。這些重大進展,很難經由一成不變的圖靈測試體現。

新的衡量標準應該如何設計?

Prasad 進一步指出,新衡量標準應該體現機器的效率優勢,如計算、搜尋、代人完成任務等,綜合評價 AI 對人類智慧帶來的幫助,而不是執迷於抹平 AI 和人的差別。

如亞馬遜舉辦的 Alexa 大賽,考察的是參選者(社群機器人)在一些社會熱門話題和人類進行連貫、有價值對話的能力。社群機器人的對話連貫性、自然程度越高,讓人類評委更願意繼續對話,得到的分數就越高。所有評判標準中,如果 AI 表現出同理心和幽默,可能會加分;但不論如何,AI 都不需要假裝成人類。

另一個例子是機器學習演算法平台 Kaggle 的「抽象和推理挑戰」,觀察參賽演算法解決前所未有推理任務的能力,也體現 AI 在知識儲備、學習、決策推理等方面的長處。

當然,每年都會召開的眾多 AI 領域學術會議,特別是這些會議的獎項,也可以幫助人們評價一篇論文的優劣。

Prasad 指出,以 Alexa 為例,身為數位助理,正在超越對話式基礎,朝環境 AI (ambient AI)前進。當需要時,AI 可回答人類的問題,當不需要時,AI 可以消失於背景,但仍有主動工作,完成人類可能意識到或沒意識到的重要任務,如基於多感測器融合的安防監控等。

在眾多科幻電影烘托下,人們嚮往更強大的「通用人工智慧」。不過隨著 AI 技術進步和更應用到現實生活,人們一邊對 AI 改善生活有更多期待,另一邊又對 AI 使用甚至濫用造成的道德困境升高警戒心。

正因如此,新 AI 衡量標準也應顧及道德、公平層面。畢竟,如果僵化性遵守圖靈測試的標準,Deepfake 可能是全世界最優秀的 AI 了。

Prasad 最後強調,他並不是否認圖靈測試,但人們需要明白的是,稱為圖靈測試的「模仿遊戲」,自始至終都是思想實驗,而非實用性人工智慧的終極測試標準。今天圖靈測試已成為老古董,過度使用的弊端不斷浮現,是時候把它放到旁邊了。

(本文由 品玩 授權轉載;首圖來源:shutterstock)

延伸閱讀: