AI 非萬靈丹,資料模型要夠完整才能確保不出錯

作者 | 發布日期 2018 年 12 月 30 日 12:00 | 分類 AI 人工智慧 , 資訊安全 follow us in feedly

從有電腦開始,就有理論指出電腦病毒的可能,惡意程式的歷史與電腦一樣久,用近期熱門科技 AI 來偵測惡意程式也成顯學。但資安專家警告,如果不注意 AI 訓練資料的侷限性,將受制於資料,容易做出錯誤的結果出來。



在 12 月 12 至 13 日舉行的 HITCON Pacific 大會上,大會演講上奧義智慧創辦人邱銘彰 Jeremy 提及 AI 訓練不夠嚴謹的狀況。像是餵給 AI 的資料多樣性不夠,會造成演算法訓練出問題。像是用虎斑貓來訓練 AI 辨識,如果突然叫訓練好的 AI 看酪梨的照片,由於酪梨的顏色很像虎斑貓,很大的機會將酪梨辨識成虎斑貓。

如果上述例子要訓練好的 AI 辨識浩克的圖片,可能也會不小心辨識成完全不同的事物。這就告訴我們訓練樣本的多樣性其實是相當重要的事情。儘管辨識圖片還不是什麼生命攸關之事,但 AI 用在民生相關之事,AI 的訓練也就要越嚴謹。

▲ 講者提及 AI 的盲點,人類能輕易辨別之物,對機器卻是相當困難,需有充分有代表性的訓練資料才不會出錯。(Source:科技新報)

自駕車是時下熱門的技術,而且將是實際生活中最貼近人生活的 AI。近期特斯拉的鏡頭辨識不出三角椎,導致車子沒有像人類駕駛看到三角椎減速甚至停下來,最終造成車禍。

回到防毒程式運用 AI 的例子,Jeremy 則舉最近防毒公司推銷用 AI 做行為分析型的防護方案,卻不是萬靈丹。你以為你的辦公室環境是乾淨的,拿來當背景值訓練演算法找出異常行為。卻忽略公司網路早已經是毒窟了。行為分析再怎麼做,分析網路流量也糾不出異常連線。

Jeremy 還提及 AI 為基礎的防毒軟體還有時候遇到簡單狀況誤判的情形,簡單的 Hello World 程式,卻因為非正規寫法,被誤判成惡意程式。

不少人想靠 AI 去分析股票走勢,卻由於自己是局內人也在做交易,所以預測結果並不準。反倒是可以從大戶的交易行為,訓練演算法預測大戶未來的交易行為。或者是不要做精準的股票指數預測,預測是漲或是跌的走勢。

整場演講告訴我們台下的聽眾,AI 並非萬靈丹,而且需要很堅強的統計學基礎。在防毒程式中就是會漏掉,像是型 1 錯誤,實際上有惡意程式存在,卻沒被偵測到。如果不注意資料問題,所謂 garbage in garbage out,反映輸入資料的本質,像是人類偏見影響資料而誤判。

(首圖來源:科技新報)