語義分割研究者的福利來了，Google 宣布開源 DeepLabv3+

DeepLab 是一種用於圖像語義分割的頂尖深度學習模型，目標是將語義標籤（如人、狗、貓等）分配給輸入圖像的每個畫素。經過 3 年左右的發展，目前 DeepLab 具有下列功能。

DeepLabv1：結合深度卷積神經網路，使用空洞卷積（atrous convolution）進行語義分割。
DeepLabv2：基於 DeepLabv1 的最佳化，使用空洞空間金字塔池化（atrous spatial pyramid pooling，ASPP）對物體進行有效分割。
DeepLabv3：採用多比例的帶孔卷積級聯或併行來捕獲多尺度背景，基於圖像特徵最佳化 ASPP。
DeepLabv3+：擴展 DeepLabv3，包括一個簡單高效、改善分割結果的解碼器模組。

目前來說，在圖像語義分割，DeepLabv3+ 已是業界頂尖水準。就在近日，Google 宣布開源 DeepLabv3+，語義分割研究者的福利來啦。

以下編譯整理相關訊息：

語意圖像分割（Semantic Image Segmentation）是為圖像中每個像素分配一個語義標籤（如「路」、「天」、「人」、「狗」）的任務，能應用至新應用程式，例如基於 Pixel 2 和 Pixel 2 XL 智慧手機肖像模式產生的淺景深效果、手機即時影片分割。分配這些語義標籤需要精確定位物體的輪廓，因此比其他視覺實體辨識任務（例如圖像分類或邊框檢測）有更嚴格的定位精準度要求。

今天，我們很高興地宣布將 Google 目前最新的、性能最好的語義圖像分割模型──DeepLab-v3+ 開源（在 TensorFlow 實現）。這次發表包含建造在一個強大的捲積神經網路（CNN）主幹架構上的 DeepLab-v3+ 模型，用於伺服器端部署。

此外，我們還公開了 Tensorflow 模型訓練和評估代碼，還有已經在 Pascal VOC 2012 和 Cityscapes 語義分割任務預先訓練過的模型。

自從 3 年前研究出 DeepLab 模型，我們不斷改進 CNN 的特徵提取器，達成更好的對象尺度建模，吸收上下文訊息，改進訓練程式，應用越來越強大的硬體和軟體，這些使 DeepLab-v2 和 DeepLab-v3 不斷改進。

使用 DeepLab-v3+ 時，我們可以透過添加一個簡單但有效的解碼器模組來擴展 Deeplabv3，進而改善分割結果，特別是用於對象邊界檢測時。我們進一步將深度可分離的捲積應用於空洞空間金字塔池化（atrous spatial pyramid pooling）和解碼器模組，進而形成了一個用於語義分割的更快速、更強大的編─解碼器網路。