
蘋果公司最近宣布了一個名為 Matrix3D 的全新 AI 模型,該模型能夠僅透過三張圖片生成詳細的 3D 場景。這一創新是蘋果機器學習團隊與南京大學及香港科技大學的研究人員合作的成果。Matrix3D 被稱為大型攝影測量模型,能夠從少量的 2D 照片中重建 3D 物體和場景,這一點與目前的技術流程有著顯著的不同。
傳統的攝影測量技術需要多個模型來完成不同的步驟,如姿勢估計和深度預測,這樣的過程往往會導致效率低下和錯誤。而Matrix3D則透過統一的架構,將所有這些步驟整合在一起,簡化工作流程並提高準確性。模型能接收圖片、相機參數(如角度和焦距)及深度數據後製。
更引人注目的是,Matrix3D的訓練過程採用了類似於早期Transformer模型的遮蔽學習策略。研究人員在訓練過程隨機隱藏部分輸入數據,迫使模型學會填補空白,這一技術使得Matrix3D即使資料庫較小或不完整也能有效訓練。
模型效果令人印象深刻,僅需輸入三張圖,Matrix3D便能產生詳細3D重建,對蘋果Vision Pro等沉浸式裝置的應用前景非常廣闊。研究員已將Matrix3D原始碼上傳至GitHub,並在arXiv發表論文,創建網站,用戶能看示範影片與點雲重建的物體和環境互動。
(首圖來源:GitHub)