可怕!打過「馬賽克」的圖竟能以 AI 還原

作者 | 發布日期 2020 年 12 月 13 日 0:00 | 分類 AI 人工智慧 , 數位內容 , 資訊安全 line share follow us in feedly line share
可怕!打過「馬賽克」的圖竟能以 AI 還原


美國時間 12 月 10 日晚上,GitHub 某 AI 項目衝上熱門榜,截至目前獲得 8.4k 顆星。

此 AI 項目的主要功能就是:去除馬賽克,還原文字密碼。

AI 破解「密碼」

不少人都認為只要打了馬賽克,就不會洩露敏感資訊,因此在公開的社群平台,經常能看到打上馬賽克的結婚照、證書照、成績照等。但無論圖像、文字還是符號,AI 還原馬賽克已不是難事了。

最近名為 Sipke Mellema 的程式設計師便開發一款工具。他說,某些公司內部文件經常使用畫素化顯示密碼,但沒有工具可幫這類圖像恢復密碼,因此便自己寫了一個。

先來看效果圖:

第一行是畫素化後密碼,狠狠打上馬賽克,看不出原始痕跡。

第二行是經 AI 還原後的文字,可看到序列大致還原,且準確度很高,只要稍微推理就能得到第三行的原始密碼。

這「不可思議」的 AI 還原技術如何做到的?

馬賽克是圖像畫素化處理之一,透過將影像特定區域的色階細節劣化並打亂色塊,達到模糊圖像的效果。

畫素化在許多領域用於模糊圖像訊息,其中線性盒濾波器(Linear Box Filter)是較普遍的處理法。線性盒濾波器採用畫素框,用框中所有畫素的平均值覆蓋畫素。

像下圖分為四個色塊,每個色塊由色塊平均值覆蓋,最終形成畫素化表情,由於原始訊息缺失,因此不能直接反轉濾波器。

Mellema 正是利用線性盒濾波器,提出 AI 還原算法──Depix。

線性盒濾波器是種確定性算法,對相同的值執行畫素化通常會產生同樣的畫素塊(Block),那麼反之,使用相同位置的塊畫素化相同文本,是否也會得到同樣塊值?

Mellema 嘗試透過畫素化文本找出相符模式,結果發現確實如此。

具體來說,Mellema 把每塊或塊組合看作子問題。算法要求在相同背景,具備相同文本大小和顏色,因此他沒有選擇創建潛在符號的查找表,因為現代文本編輯器可添加色調、飽和度和亮度,也就是說有大量潛在符號。

處理符號方面,Mellema 使用待處理符號的德布魯因序列(De Bruijn sequence),貼到相同的編輯器,然後截圖。截圖可用作相似塊的查找圖像,例如:

德布魯因序列包括待處理符號的所有雙符號組合,這點很重要,因為一些塊會重疊兩個符號。

要找出合適的配對需要搜尋圖像具備相同畫素配置的塊。測試時 Depix 算法無法找到符號「o」,因為搜尋圖像中,搜尋塊還包含下一個字母「d」,但在原始圖像有個空格。

顯然,創建符號的德布魯因序列時,如果加上空格會帶來同樣的問題,即算法無法找到後續字母恰當的塊。有空格又有字母的圖像需要更長搜尋時間,但結果也更好。

對大多數畫素化圖像而言,Depix 可找到塊的單配對結果。先假設這些塊是正確的,然後比對周圍多個配對塊,使其與畫素化圖像的幾何距離相同,並假設這些匹配也正確。

正確的塊沒有更多幾何匹配後,Depix 直接輸出所有正確的塊。對於多匹配塊,Depix 將輸出所有匹配的平均值。雖然 Depix 的輸出並不完美,但算不錯了。

下圖展示包含隨機符號的測試圖像去畫素化結果,大部分字符都正確讀取:

最後要說明的是,Mellema 開發此 AI 項目並不是為了不法取得資訊,而是利用 ECB 和已知明文攻擊(Known-Plaintext Attacks)模式,提高資訊保護技術。在他看來,不知道如何破壞目前的保護模式,是資訊安全方面的常見陷阱。

AI 還原「人臉圖像」

如前所述,除了符號密碼,AI 還原人臉也不在話下。

今年 6 月中旬,杜克大學推出 AI 演算法 PULSE,可將低解析度的臉部圖放大 64 倍,即使打了馬賽克,毛孔、皺紋、頭髮都清晰可見。

不過還原的人臉是全新的虛擬臉孔,並不是真實存在的臉。眼睛、鼻子、嘴巴等五官是 AI 在原始圖像的基礎上,自行想像的結果。

因此這項 AI 技術不能用於身分辨識。例如監視器拍攝的失焦無法辨別照片,不能透過 PULSE 還原成原始圖片,不過在醫學、顯微鏡、天文學、衛星圖像等領域有廣泛應用。

技​術方面,不同其他超解析度成像法,PULSE 不是遍歷 LR(Low Resolution)圖像來慢慢添加細節,而是發現與 HR 相對應的 LR,透過「縮減損失」(Downscale)得到 SR(Super Resolution)圖像。

其次,PULSE 使用生成對抗網路(GAN)訓練模型。GAN 包括一個生成器(Generator)和一個鑑識器(Discriminator),同一組照片訓練,兩者以博弈方式檢驗輸出是否夠逼真。

最後,無論利用 AI 還原符號密碼還是人臉,初心都是科技向善。但這些 AI 技術不可避免被有些人用於不良或非法用途。因此科技高速發展的現在,保護個資顯得尤其重要。

(本文由 雷鋒網 授權轉載;首圖來源:pixabay

延伸閱讀: