美研究員找到方式攻擊語音轉文字系統,用「隱藏語音命令」讓人聲變成噪音

作者 | 發布日期 2018 年 01 月 22 日 22:00 | 分類 AI 人工智慧 , 尖端科技 follow us in feedly

柏克萊加州大學(UC Berkeley)兩位電腦科學家運用 AI 開發出一種針對語音轉文字系統(speech-to-text)的攻擊模式,在使用這項技術時,不論聲音內容聽起來像什麼,輸出的文字都是攻擊者想要的內容。



據了解,團隊主要是運用 Mozilla 開源的語音轉文字系統 DeepSpeech 來測試,研究人員表示,無論提供任何音頻波型,透過運用這項技術,團隊都可製造出另一個相似度高達 99.9% 的音頻,在人耳聽不出差別的情況下,讓 DeepSpeech 辨識成團隊希望的任何字句。

轉換後的音頻能以每秒高達 50 個字元的速度進行,截至目前為止,團隊攻擊的成功率為 100%,無論是原本的音頻內容,或是需要轉換成什麼字句都沒有區別,對語音應用逐漸增加的現在來說,這種情況似乎也十分值得注意。

教授 Nicholas Carlini、David Wagner 向 TNW 表示,過去在與喬治城的研究人員合作的過程中,他們一同建構了「隱藏語音命令」來試圖攻擊手機語音辨識系統。

簡單來說,這些攻擊的目的是為了讓語音辨識系統對主體與客體的判斷轉換,將隱藏在音頻中的訊息視為主要目的,反而將語音中原先你我的聲音判斷成「隨機噪音」。

目前團隊的攻擊效果仍僅適用於 DeepSpeech,這顯然並不是 Siri、Alexa或 Google Assistant 用於轉錄的程式,但研究人員認為這確實證明,對於語音辨識的「攻擊」行為是可行的。

Carlini 甚至認為,只要多進行一些研究,一些人甚至可讓這個音頻對抗技術也能在 Over-The-Air 的情況下使用。

(首圖來源:pixabay