AI 影像去背有多強？無需「綠幕」，也可達專業級效果

最近某熱門 AI 計畫引起網友注目，因聽說它能帶你環遊世界，還能讓 AngelaBaby 多拍幾部電視劇。

深入了解後，發現原來是一款 AI 影像去背神器，一大早就衝上 GitHub 熱門榜。官方介紹，此 AI 神器可讓影像處理變簡單且專業，不用「綠幕」也能達到逼真、毫無違和感的合成效果。

其實影像去背 AI 已有不少，但這款確實讓人很驚豔。先來看下示範影片。

▲ 你能看出公路背景和大海背景的影像，哪個是 AI 合成的嗎？連撩起的頭髮都看不出一絲破綻，就算瘋狂跳舞也沒有影響效果；動態也是如此，瘋狂甩頭也能即時捕捉細節。

此超強 AI 去背神器來自香港城市大學和商湯科技聯合研究團隊，論文第一作者還是在讀博士生張漢科。

接下來看看背後的技術原理。

目標分解網路 MODNet

關鍵在於此 AI 採用輕量級的目標分解網路 MODNet（Matting Objective Decomposition Network），可從不同背景的單個輸入圖像平滑處理動態人像。

簡單說，功能就是影像人像去背。

有些影視作品尤其是古裝劇，必須要後期處理人物背景。為了達到逼真的合成效果，拍攝時一般都會使用「綠幕」布景，因綠幕可使高品質的 Alpha 蒙版即時提取圖像或影像人物。

如果沒有綠幕，通常的技術是光照處理法，即預定義的 Trimap 為自然光照演算法輸入。這種方法會粗略生成三位圖：確定的（不透明）前景，確定的（透明）背景及介於兩者的未知（不透明）區域。

如果使用人工三位圖不僅昂貴，且深度相機可能會導致精確度下降。因此，針對以上不足，研究人員提出目標分解網路 MODNet。

（Source：arxiv.org）

如圖所示，MODNet 由 3 個相互依賴的分支 S、D 和 F 構成，分別透過一個低解析度分支預測人類語義（SP）、一個高解析度分支來聚焦縱向的邊界細節（DP），最後一個融合分支預測 Alpha Matte （αp）：

語義估計（Semantic Estimation）：採用 MobileNetV2[35] 架構，透過編碼器（即 MODNet 的低解析度分支）提取高層語義。
細節預測（Detail Prediction）：處理前景肖像周圍的過渡區域，以 I，S (I) 和 S 的低層特徵為輸入。同時對卷積層數、頻道、輸入解析度三方面最佳化。
語義細節融合（Semantic-Detail Fusion）：一個融合語義和細節的 CNN 模組，向上採樣 S (I) 以使其形狀與 D（I，S (I)）匹配，再將 S (I) 和 D（I，S (I)）連接起來預測最終 αp。

另外，基於以上底層框架，研究還提出自監督策略 SOC（Sub-Objectives Consistency）和幀延遲處理方法 OFD（One-Frame Delay )。

SOC 策略可保證 MODNet 架構處理未標註數據時，讓輸出子目標有一致性；OFD 方法在執行人像摳像影像任務時，可在平滑影像序列預測 Alpha 遮罩。如下圖：

實驗評估

開始實驗評估前，研究人員創建一個攝影人像基準資料庫 PPM-100（Photographic Portrait Matting）。包含 100 幅不同背景的精細註釋肖像圖。為了保證樣本多樣性，PPM-100 還定義成幾個分類規則平衡樣本類型，如是否包括整個人體；圖像背景是否模糊；是否持有其他物體：

PPM-100 的樣圖具豐富背景和人物姿勢，因此可看成較全面的基準。

來看看實驗結果：

MODNet 在 MSE（均方誤差）和 MAD（平均值）都優於其他無 Trimap 的方法。雖然性能不如採用 Trimap 的 DIM，但如果將 MODNet 修改為基於 Trimap 的方法──即以 Trimap 為輸入，性能會優於基於 Trimap 的 DIM，也再次顯示 MODNet 的結構體系有優越性。

此外，研究人員還進一步證明 MODNet 在模型大小和執行效率方面的優勢。

模型大小透過參數總數衡量，執行效率透過 NVIDIA GTX1080 Ti GPU 超過 PPM-100 的平均參考時間來反映（輸入圖像裁剪為 512×512）。結果如圖：