2D 圖像快速轉換 3D 深度圖,蘋果開源深度感知「Depth Pro」模型

作者 | 發布日期 2024 年 10 月 08 日 15:31 | 分類 AI 人工智慧 , Apple line share Linkedin share follow us in feedly line share
2D 圖像快速轉換 3D 深度圖,蘋果開源深度感知「Depth Pro」模型


蘋果 AI 研究團隊提出一款新模型「Depth Pro」,能夠顯著提升機器感知深度的能力,從擴增實境(Augmented Reality,AR)到自駕車等不同領域可望帶來深遠的影響。

一篇《Depth Pro: Sharp Monocular Metric Depth in Less Than a Second》新論文,研究團隊提出零樣本單目場景深度預測的基礎模型,稱為 Depth Pro,可合成具有無比銳利和高頻細節的高解析度深度圖。

Depth Pro 的深度預測採取公制,具有絕對比例,不依賴 metadata。這款模型速度很快,在標準 GPU 只需 0.3 秒就能產生 225 萬像素的深度圖。

研究團隊指出,Depth Pro 真正與眾不同之處在於它能夠估計相對和絕對深度,意味著這款模型可以做到真實世界的測量,對 AR 等應用相當重要,使虛擬物件擺在實體空間的準確位置。

Depth Pro 不需要對特定領域的資料集進行大量訓練即可做出準確預測,這稱為零樣本學習。這使得該模型高度通用,可以應用在廣泛的影像,而不需要相機參數等 metadata。

研究團隊將 Depth Pro 開源釋出,程式碼以及預訓練的模型權重可在 GitHub 取得,允許開發者和研究人員試驗並進一步完善這項技術。他們也鼓勵進一步探索 Depth Pro 在機器人、製造、醫療保健等領域的應用潛力。

單目深度預測一直是具有挑戰性的任務,需要多項影像或焦距等 metadata 來估算測量深度,但 Depth Pro 繞過這些要求,不到 1 秒就能從單一 2D 圖像產生詳細的 3D 深度圖,甚至可以捕捉傳統方法可能忽略的微小細節,在單目場景深度預測上達成重大躍進。

(首圖來源:shutterstock)

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》