AI 影像去背有多強?無需「綠幕」,也可達專業級效果

作者 | 發布日期 2020 年 12 月 06 日 0:00 | 分類 AI 人工智慧 , 數位內容 , 網路 line share follow us in feedly line share
AI 影像去背有多強?無需「綠幕」,也可達專業級效果


最近某熱門 AI 計畫引起網友注目,因聽說它能帶你環遊世界,還能讓 AngelaBaby 多拍幾部電視劇。

深入了解後,發現原來是一款 AI 影像去背神器,一大早就衝上 GitHub 熱門榜。官方介紹,此 AI 神器可讓影像處理變簡單且專業,不用「綠幕」也能達到逼真、毫無違和感的合成效果。

其實影像去背 AI 已有不少,但這款確實讓人很驚豔。先來看下示範影片。

▲ 你能看出公路背景和大海背景的影像,哪個是 AI 合成的嗎?連撩起的頭髮都看不出一絲破綻,就算瘋狂跳舞也沒有影響效果;動態也是如此,瘋狂甩頭也能即時捕捉細節。

此超強 AI 去背神器來自香港城市大學和商湯科技聯合研究團隊,論文第一作者還是在讀博士生張漢科。

接下來看看背後的技術原理。

目標分解網路 MODNet

關鍵在於此 AI 採用輕量級的目標分解網路 MODNet(Matting Objective Decomposition Network),可從不同背景的單個輸入圖像平滑處理動態人像。

簡單說,功能就是影像人像去背。

有些影視作品尤其是古裝劇,必須要後期處理人物背景。為了達到逼真的合成效果,拍攝時一般都會使用「綠幕」布景,因綠幕可使高品質的 Alpha 蒙版即時提取圖像或影像人物。

如果沒有綠幕,通常的技術是光照處理法,即預定義的 Trimap 為自然光照演算法輸入。這種方法會粗略生成三位圖:確定的(不透明)前景,確定的(透明)背景及介於兩者的未知(不透明)區域。

如果使用人工三位圖不僅昂貴,且深度相機可能會導致精確度下降。因此,針對以上不足,研究人員提出目標分解網路 MODNet。

(Source:arxiv.org

如圖所示,MODNet 由 3 個相互依賴的分支 S、D 和 F 構成,分別透過一個低解析度分支預測人類語義(SP)、一個高解析度分支來聚焦縱向的邊界細節(DP),最後一個融合分支預測 Alpha Matte (αp):

  • 語義估計(Semantic Estimation):採用 MobileNetV2[35] 架構,透過編碼器(即 MODNet 的低解析度分支)提取高層語義。
  • 細節預測(Detail Prediction):處理前景肖像周圍的過渡區域,以 I,S (I) 和 S 的低層特徵為輸入。同時對卷積層數、頻道、輸入解析度三方面最佳化。
  • 語義細節融合(Semantic-Detail Fusion):一個融合語義和細節的 CNN 模組,向上採樣 S (I) 以使其形狀與 D(I,S (I))匹配,再將 S (I) 和 D(I,S (I))連接起來預測最終 αp。

另外,基於以上底層框架,研究還提出自監督策略 SOC(Sub-Objectives Consistency)和幀延遲處理方法 OFD(One-Frame Delay )。

SOC 策略可保證 MODNet 架構處理未標註數據時,讓輸出子目標有一致性;OFD 方法在執行人像摳像影像任務時,可在平滑影像序列預測 Alpha 遮罩。如下圖:

實驗評估

開始實驗評估前,研究人員創建一個攝影人像基準資料庫 PPM-100(Photographic Portrait Matting)。包含 100 幅不同背景的精細註釋肖像圖。為了保證樣本多樣性,PPM-100 還定義成幾個分類規則平衡樣本類型,如是否包括整個人體;圖像背景是否模糊;是否持有其他物體:

PPM-100 的樣圖具豐富背景和人物姿勢,因此可看成較全面的基準。

來看看實驗結果:

MODNet 在 MSE(均方誤差)和 MAD(平均值)都優於其他無 Trimap 的方法。雖然性能不如採用 Trimap 的 DIM,但如果將 MODNet 修改為基於 Trimap 的方法──即以 Trimap 為輸入,性能會優於基於 Trimap 的 DIM,也再次顯示 MODNet 的結構體系有優越性。

此外,研究人員還進一步證明 MODNet 在模型大小和執行效率方面的優勢。

模型大小透過參數總數衡量,執行效率透過 NVIDIA GTX1080 Ti GPU 超過 PPM-100 的平均參考時間來反映(輸入圖像裁剪為 512×512)。結果如圖:

上圖顯示,MODNet 的推理時間為 15.8ms(63fps),是 FDMPA(31fps)的兩倍。雖然 MODNet 的參數量比 FDMPA 稍多,但性能明顯更好。

要注意的是,較少參數並不意味著更快的推理速度,因為模型可能有較大特徵映射或耗時機制,如注意力機制(Attention Mechanisms)。

總之,MODNet 提出簡單、快速且有效即時人像去背處理方法,僅以 RGB 圖像輸入,做到場景變化下 Alpha 蒙版預測。此外,由於提出的 SOC 和 OFD,MODNet 實際應用受到的區域轉移問題影響也較小。

不過遺憾的是,此方法不能處理複雜的服裝和模糊的運動影像,因為訓練資料庫沒有這些影像。下階段研究人員會嘗試透過附加子目標(如光流估計)方法,以解決運動模糊下的影像去背問題。

(本文由 雷鋒網 授權轉載;首圖為示意圖;來源:pixabay

延伸閱讀: