偽造 CEO 語音騙走 712 萬元,語音版 Deepfake 詐騙案正在興起

作者 | 發布日期 2020 年 08 月 04 日 16:32 | 分類 網路 , 職場 , 資訊安全 line share follow us in feedly line share
偽造 CEO 語音騙走 712 萬元,語音版 Deepfake 詐騙案正在興起


從圖像、影片到語音,DeepFake 正在建構一個虛假的世界。

我們可以看到,在馬斯克的這段演講影片中,Deepfake 的換臉技術幾乎達到人眼無法區別的地步。

不過,隨著技術不斷成熟,Deepfake 卻帶來隱藏的「虛假」風險。自從 2017 年,一位網友將女星蓋兒‧加朵和成人電影女主做了人臉交換,偽造了一段色情影片後,有關濫用 Deepfake 製造虛假、不良內容的影片一直充斥於網路。

為了應對 Deepfake 換臉技術帶來的種種風險,2019 年,Facebook 斥巨資發起「Deepfake 檢測挑戰賽」,這項挑戰賽一直延續到現在,其辨識準確率已經達到 82.56%。

不過,令人擔憂的是,有人又將虛假的矛頭指向 Deepfake 語音。有報導稱,一家英國能源公司被敲詐了 24 萬美元(約台幣 712 萬元),其背後正是利用語音版 Deepfake 技術。

攻擊者假冒公司 CEO 製造了一段虛假語音,以電子郵件的方式發給公司下屬員工,要求其向指定帳戶完成匯款。員工稱,假冒語音中的音調、口吻和口音都與公司 CEO 頗為相似,對他產生了誤導乖乖轉帳。其實,諸如此類的詐騙案件已經發生了不只一起。

對此,安全諮詢公司 Nisos 在分析過偽造語音後發出警告,Deepfake 語音詐騙正在興起,必須提高警惕。

Deepfake 語音複製曝光

最近一家科技公司也收到一份自稱公司 CEO 的語音郵件,要求「立即提供協助以完成緊急商業交易」。不過,這次員工發現了語音中的異常,詐騙沒有成功。

可以聽出這段語音的品質並不是很好,有點機械、不連貫,但員工說口音和音調還是大致相似的。

Deepfake 語音複製的品質,主要取決於假冒對象的錄音,數量越多、品質越好,偽造的逼真度也就越高。對於公司高層而言,他們在電話會議、YouTube、社交媒體或者 TED 演講中的錄音很容易取得,也由此成為了詐騙集團的偽造對象。

隨後,該公司將這段偽造的語音檔交給一家安全諮詢公司 Nisos。Nisos 使用一款名為 Spectrum3d 的音頻頻譜圖工具,分析了 Deepfake 的偽造語音。

▲ Deepfake 音頻頻譜圖。

可以看到頻譜圖中的音調幾乎一直處於峰值狀態,這與我們日常講話的高低音轉換顯然有很大差異,另外,研究人員稱,他們在語音中沒有發現任何噪音的痕跡,顯然說明這段語音是透過電腦軟體合成的。

與正常人聲的頻譜圖對比來看,結果更是一目了然,音高頻率、幅度更加自然,同時也能夠檢測數量微弱的背景噪音。

▲ 正常人聲頻譜圖。

由於未獲取足夠的樣本,詐騙集團採用的是何種 Deepfake 軟體合成技術還不得而知。不過,攻擊者為製造高逼真度的詐欺語音,需要滿足以下幾個條件:

  • 捕獲幾乎沒有背景噪音的高品質語音。
  • 在無法通話的場景下,分階段發送語音進行溝通。
  • 以留言的方式進行,避免面對面交談。

如何辨別語音詐欺

雖然這次 Deepfake 偽造語音存在明顯瑕疵,但只要獲取高品質的語音樣本,其偽造程度還是能夠以假亂真。

另外,Nisos 公司表示,語音的深度偽造不僅與人的語氣有關,還與特定的言語舉止有關。但是這個目標已經能夠實現,比如攻擊者會採用會採用類似於 Yandex 反向圖像搜尋的語音工具,透過大量樣本的建構和訓練,將原始語音轉換為目標語音的模型。

目前語音詐欺案件已經陸續出現,隨著 Deepfake 軟體的使用更加容易,語音合成處理的品質越來越高,此類詐欺案件也會愈加普遍。

不過,Nisos 公司強調由於技術的局限性,此類詐欺事件還是很容易識破的,比如透過電話溝通再度確認。

Deepfake 技術無法實現連貫的語音通話,因此攻擊者通常採用語音郵件的形式與對方溝通。另外,也可以透過詢問一些只有內部才知道的事情來確認對方的身分。此外,攻擊者會盜用公司高級管理人員的 email 來與下屬員工進行溝通,因此,加強 email 安全防護也是非常必要的。

此外,除了經濟詐騙外,攻擊者還可能透過引導員工登入不安全網站等行為,對公司的網路或物理資產造成破壞。

(本文由 雷鋒網 授權轉載;首圖來源:pixabay

延伸閱讀: