語義分割研究者的福利來了,Google 宣布開源 DeepLabv3+

作者 | 發布日期 2018 年 03 月 27 日 9:54 | 分類 AI 人工智慧 , Google , 軟體、系統 follow us in feedly

DeepLab 是一種用於圖像語義分割的頂尖深度學習模型,目標是將語義標籤(如人、狗、貓等)分配給輸入圖像的每個畫素。經過 3 年左右的發展,目前 DeepLab 具有下列功能。



  • DeepLabv1:結合深度卷積神經網路,使用空洞卷積(atrous convolution)進行語義分割。
  • DeepLabv2:基於 DeepLabv1 的最佳化,使用空洞空間金字塔池化(atrous spatial pyramid pooling,ASPP)對物體進行有效分割。
  • DeepLabv3:採用多比例的帶孔卷積級聯或併行來捕獲多尺度背景,基於圖像特徵最佳化 ASPP。
  • DeepLabv3+:擴展 DeepLabv3,包括一個簡單高效、改善分割結果的解碼器模組。

目前來說,在圖像語義分割,DeepLabv3+ 已是業界頂尖水準。就在近日,Google 宣布開源 DeepLabv3+,語義分割研究者的福利來啦。

以下編譯整理相關訊息

語意圖像分割(Semantic Image Segmentation)是為圖像中每個像素分配一個語義標籤(如「路」、「天」、「人」、「狗」)的任務,能應用至新應用程式,例如基於 Pixel 2 和 Pixel 2 XL 智慧手機肖像模式產生的淺景深效果手機即時影片分割。分配這些語義標籤需要精確定位物體的輪廓,因此比其他視覺實體辨識任務(例如圖像分類邊框檢測)有更嚴格的定位精準度要求。

今天,我們很高興地宣布將 Google 目前最新的、性能最好的語義圖像分割模型──DeepLab-v3+ 開源(在 TensorFlow 實現)。這次發表包含建造在一個強大的捲積神經網路(CNN)主幹架構上的 DeepLab-v3+ 模型,用於伺服器端部署。

此外,我們還公開了 Tensorflow 模型訓練和評估代碼,還有已經在 Pascal VOC 2012 和 Cityscapes 語義分割任務預先訓練過的模型。

自從 3 年前研究出 DeepLab 模型,我們不斷改進 CNN 的特徵提取器,達成更好的對象尺度建模,吸收上下文訊息,改進訓練程式,應用越來越強大的硬體和軟體,這些使 DeepLab-v2 和 DeepLab-v3 不斷改進。

使用 DeepLab-v3+ 時,我們可以透過添加一個簡單但有效的解碼器模組來擴展 Deeplabv3,進而改善分割結果,特別是用於對象邊界檢測時。我們進一步將深度可分離的捲積應用於空洞空間金字塔池化(atrous spatial pyramid pooling)和解碼器模組,進而形成了一個用於語義分割的更快速、更強大的編─解碼器網路。

基於卷積神經網路(CNNs)的現代語義圖像分割系統已達到精確水準,這在 5 年前難以想像,這要歸功於方法、硬體和資料集的發展。

我們希望與廣大的研究社群分享我們的系統,這樣一來,學術界和業界的團體能更容易地複製和改進現有系統,在新的資料集訓練模型,並為這項技術設計新的應用。

(本文由 雷鋒網 授權轉載;首圖來源:shutterstock)

關鍵字: , ,