反直覺,如同做心理測試的驗證碼是否該淘汰了?

作者 | 發布日期 2022 年 08 月 18 日 7:30 | 分類 AI 人工智慧 , 資訊安全 Telegram share ! follow us in feedly


「我不是機器人」是再正常不過的事,但電腦承認你是人類前,可能會要求你點擊有紅綠燈或人行道的圖像。當你靠近螢幕瞇起眼睛,猶豫某張照片露出的一點點邊角時,就知道沒那麼簡單。

這種難證明自己的感覺,凡是網路搶票過的人都懂。多年過去,不斷有新花樣的驗證碼依然逼你思考千古不變的哲學問題:我是誰?

微笑的狗,雲做的馬,證明自己是人更難了

請點擊每張包含微笑的狗的圖片。

創意行銷機構創辦人 Jared Bauman 最近被驗證碼問倒了,他疑惑狗真的會笑嗎?多數狗看起來既不高興也不難過,有些在做鬼臉,有些只是張嘴吐氣。8 月 2 日他又被要求找出「雲做成的馬」,9 張圖有 2 張是雲大象,他第一次點擊時不幸敗北。

Jared Bauman 意識到嚴重的問題:找出紅綠燈、公車或腳踏車已過時,驗證碼系統開始進入下一階挑戰。這些驗證碼出自 hCaptcha,開發者稱比 Google 驗證碼系統 reCAPTCHA 更注重隱私,只收集最低限度的必要個資。驗證碼為什麼會越來越難,還是要從驗證碼是什麼,以及 Google 驗證碼系統 reCAPTCHA 是什麼說起。

驗證碼(CAPTCHA)全稱「全自動區分電腦和人類的公開圖靈測試」。由於是電腦出題考人類,而不是標準圖靈測試人類考電腦,所以驗證碼也算反圖靈測試。驗證碼設計初衷是保護網站免受機器人攻擊,包括傳播惡意軟體、散布假帳號、DDoS 攻擊、發送大量垃圾郵件、竊取使用者資訊等。這些機器人本質上是一行行自動執行的程式碼。

驗證碼始於 2000 年代初,由卡內基美隆大學幾位計算機科學家開發。最初驗證碼為扭曲英文字母,避免被光學字元辨識等電腦程式自動辨認,超過當時電腦破譯能力,但對大多數人類可讀。很快研究人員意識到這項技術有區分人類和機器人以外的潛力,再開發 reCAPTCHA 技術,讓使用者填寫驗證碼時順便幫忙紙本檔案數位化,因人類比電腦更能破譯老舊文獻扭曲的字母。

用戶必須輸入兩個詞,一是已有答案的真正測試,另一個是尚未轉錄的新詞。透過世界各地使用者多次顯示相同單字,reCAPTCHA 便可自動驗證單詞是否正確轉錄,像網路眾籌,耗費你的時間而非金錢。網路神奇之處便在此,技術支援下創造樂趣,可利用所有人一點時間,聚沙成塔。

2009 年 Google 收購 reCAPTCHA,並用於數位化 Google 圖書和《紐約時報》檔案。2011 年 Recaptcha 完成整個 Google 圖書檔案、1,300 萬篇紐時文章數位化。2012 年可每天翻譯約 1.5 億個單字。

驗證碼為什麼越來越難?

人類沉浸於知識的海洋,機器人也沒有停下學習腳步。2014 年 Google 發表專門解讀扭曲文本驗證碼的演算法,人工智慧技術能以 99.8% 準確率解決最困難的扭曲文本,人類成功率是 33%。扭曲字母失去最初用處,該讓下一代驗證碼登場了。2012 年 Google 推出 reCAPTCHA 圖片辨識版,包括 Google 街景照片,讓使用者轉錄門牌號碼和其他標誌。類似舊書數位化,Google 一舉多得,既防禦惡意腳本,自家人工智慧也有進步。

2014 年 Google :「街景和 reCAPTCHA 團隊密切合作,兩者都繼續改進,使地圖更精確有用,reCAPTCHA 更安全、更有效。」地圖更精確有用代表 Google 需要訓練人工智慧辨識圖像物體。

那怎麼訓練人工智慧?reCAPTCHA。數以億計使用者為了證明自己是人類,為科技公司建立機器學習資料庫。進步的不只 Google,2017 年開發人員 Francis Kim 實驗,以 40 行 Javascript 構建系統,使用 Google 競爭對手 Clarifai 的圖像辨識 API,嘗試透過 reCAPTCHA 圖像驗證碼,腳本成功找出圖中的商店。

理論上,這也可以使用 Google 圖像辨識技術達成。

Google 驗證碼系統有兩個目的:用文本、圖像等訓練人工智慧同時擋住惡性腳本,但其實 Google 人工智慧越來越厲害,惡性腳本也有進步,只有用戶證明自己是人越來越難。

2014 年 Google「No CAPTCHA reCAPTCHA」登台,即「沒有驗證碼的驗證碼」,介面簡單友善,只要你堅信「我不是機器人」。

Google 稱推出新 API,可觀察用戶行為,收集指標移動速度、目前 IP、是否使用外掛程式、頁面使用時間、點擊多少次等數據,簡化 reCAPTCHA 流程。多數情況只需按一下,就能確認使用者是不是機器人。

但驗證碼沒有消失,甚至可說最討人厭的驗證碼出現了。風險分析引擎無法預測使用者是不是人,Google 讓驗證碼再次出山,並有更多新玩法,如基於經典計算機視覺圖像標記問題,叫你選出有貓或火雞的照片。

還有像玩遊戲的驗證碼,要求使用者將物體轉到特定角度,或將拼圖移到適當位置。

人類能理解謎題邏輯,但缺乏明確指令的機器人會被問倒,但以後會不會克服就難說了。機器學習越多,人類優勢就越少,這是道高一尺、魔高一百丈的過程。

驗證碼可取代嗎?

伊利諾伊大學芝加哥分校計算機科學教授 Jason Polakis 指出,機器學習現在基本文本、圖像和語音辨識任務與人類差不多,「我們需要替代方案」。驗證碼系統面前,用戶體驗和可存取性大大降低,驗證碼對很多人來說不容易,特別是老人等有學習障礙族群

提供老年客戶技術建議的 Eileen Ridge 表示,她經常接到客戶電話,老人很難辨識磨損的斑馬線和正常斑馬線,且十分擔心因錯誤答案使帳戶被鎖,就像許多老人對網路的態度一樣。微笑的狗、雲做的馬,對他們來說可能更難。

取代驗證碼的方案不斷開發。某些網站使用人類使用者不可見的驗證碼形式,將字段插入僅機器人可見的螢幕,誘騙它們填寫表格證明它們不是人類。

近兩年 Google 推出新驗證碼系統 reCaptcha v3,採逆向思維,自動記錄消費者瀏覽網站的行為特徵,據這些紀錄評分使用者,若使用者分數過低就會判定為機器人,否則不會打擾使用者,使上網體驗滑順,但可能涉及隱私問題。

FastCompany 報導,使用者是否使用 Google Cookies 是決定評分的重要因素。如果用戶選擇 Google 記住登錄資訊,會得到更高分數,沒有登錄 Google 帳號或使用 VPN 通常會提示高風險。

機器人檢測公司 Shape Security 首席技術長 Ghosemajumder 認為,遊戲驗證碼、影片驗證碼等最後都會破解。與測試相比,他更喜歡「持續身分驗證」,本質是觀察用戶行為,尋找自動化跡象:

真正人類不能完美控制運動功能,即使非常努力嘗試,也不能多次互動時以相同軌跡移動滑鼠。

今年 6 月,蘋果全球開發者大會宣布以私人存取代幣(Private Access Tokens)取代驗證碼。密碼或生物辨識解鎖手機、打開瀏覽器、精準輸入網站……一系列操作足以「驗明正身」。蘋果系統驗證設備和 Apple ID 帳戶是正常狀態,再向需要驗證碼的 App 或網站提供「私人存取代幣」即可。

網站安全管理的 Cloudflare、Ffast 等公司支援私人代幣,iOS 16 設備登錄這兩家公司 App 或網站,不再需要驗證碼。這技術還在推廣,需要更多支援者加入才會更好用。蘋果工程師 Tommy Pauly 指出:「這將為很多人節省大量時間,且用戶喜歡被信任的感覺。」

但只要有假帳號、垃圾郵件、騷擾資訊等,我們仍需分辨人類與機器人的技術,某形式的驗證碼技術將一直在,與人工智慧一起發展。未來驗證碼系統辨識人類,很可能不是透過人超過機器人的能力,而是人類犯錯的可能。也就是說設置更多挑戰性測試,人往往會失敗,機器人卻有正確答案。或許人抓耳搔頭尋找圖片所有紅綠燈時,結局通常是人類一敗塗地。

(本文由 愛范兒 授權轉載;首圖來源:shutterstock)

延伸閱讀: