2D 圖像快速轉換 3D 深度圖，蘋果開源深度感知「Depth Pro」模型

蘋果 AI 研究團隊提出一款新模型「Depth Pro」，能夠顯著提升機器感知深度的能力，從擴增實境（Augmented Reality，AR）到自駕車等不同領域可望帶來深遠的影響。

一篇《Depth Pro: Sharp Monocular Metric Depth in Less Than a Second》新論文，研究團隊提出零樣本單目場景深度預測的基礎模型，稱為 Depth Pro，可合成具有無比銳利和高頻細節的高解析度深度圖。

Depth Pro 的深度預測採取公制，具有絕對比例，不依賴 metadata。這款模型速度很快，在標準 GPU 只需 0.3 秒就能產生 225 萬像素的深度圖。

研究團隊指出，Depth Pro 真正與眾不同之處在於它能夠估計相對和絕對深度，意味著這款模型可以做到真實世界的測量，對 AR 等應用相當重要，使虛擬物件擺在實體空間的準確位置。

Depth Pro 不需要對特定領域的資料集進行大量訓練即可做出準確預測，這稱為零樣本學習。這使得該模型高度通用，可以應用在廣泛的影像，而不需要相機參數等 metadata。

研究團隊將 Depth Pro 開源釋出，程式碼以及預訓練的模型權重可在 GitHub 取得，允許開發者和研究人員試驗並進一步完善這項技術。他們也鼓勵進一步探索 Depth Pro 在機器人、製造、醫療保健等領域的應用潛力。

單目深度預測一直是具有挑戰性的任務，需要多項影像或焦距等 metadata 來估算測量深度，但 Depth Pro 繞過這些要求，不到 1 秒就能從單一 2D 圖像產生詳細的 3D 深度圖，甚至可以捕捉傳統方法可能忽略的微小細節，在單目場景深度預測上達成重大躍進。

（首圖來源：shutterstock）

從這裡可透過《Google 新聞》追蹤 TechNews

科技新知，時時更新

想請我們喝幾杯咖啡？