輝達生成式人工智慧研究,將文字秒轉換成 3D 形狀

作者 | 發布日期 2024 年 03 月 25 日 17:20 | 分類 AI 人工智慧 , GPU , IC 設計 line share follow us in feedly line share
輝達生成式人工智慧研究,將文字秒轉換成 3D 形狀


輝達 (NVIDIA) 表示,其下的研究人員在最新的文字轉 3D 生成式人工智慧模型中注入了雙倍的加速力量。輝達將該模型稱為 LATTE3D,其就像一台虛擬的 3D 列印機,LATTE3D 能在一秒內將文字提示轉換為物體和動物的 3D 表示形式。由於採用了廣泛使用於標準渲染應用程式的格式,生成的形狀可以輕鬆地在虛擬環境中使用,例如開發電玩遊戲、廣告活動、設計項目,或機器人的虛擬訓練場域等。

輝達 AI 研究副總裁 Sanja Fidler 所屬,位於多倫多的 AI 實驗室團隊開發了 LATTE3D。Sanja Fidler 表示,一年前,AI 模型生成這種質量的 3D 視覺效果需要一個小時,而目前的最新技術只需約 10 到 12 秒。我們現在能以數量級更快的速度產生結果,使各產業的創作者能夠實現近乎即時的文字到 3D 生成。而這項進步代表著當在單個 GPU 上運行推論時,像 NVIDIA RTX A6000 這樣的 GPU,LATTE3D 能夠幾乎立即生成 3D 形狀。

輝達指出,創作者無需從頭開始設計或在 3D 資源庫內進行搜尋,而是可以使用 LATTE3D 在想法突然出現時,立即產生詳細的物件。另外,該模型基於每個文字提示生成幾種不同的 3D 形狀選項,供創作者選擇。選定的物體可以在幾分鐘內進行最佳化,達到更高的品質。然後,使用者可以將形狀匯出到圖形軟體應用程式或平台,如 NVIDIA Omniverse,該平台支持基於通用場景描述 (OpenUSD) 的 3D 工作流程和應用程式。

另外,雖然研究人員在動物和日常物體這兩個特定資料集上訓練 LATTE3D,但是,開發人員可以使用相同的模型架構在其他資料類型上訓練 AI。例如,如果在 3D 植物資料集上進行訓練,LATTE3D 的一個版本可以幫助景觀設計師在與客戶進行腦力激盪時使用樹木、開花灌木和多肉植物快速填充花園渲染圖。如果在家庭物品資料集上進行訓練,該模型可以產生填充家庭 3D 模擬的物品,開發人員可以使用這些物品來訓練個人助理機器人,然後再於現實世界中進行測試和部署。

目前,LATTE3D 使用 NVIDIA A100 Tensor 核心 GPU 進行訓練。除了 3D 形狀外,該模型還接受了使用 ChatGPT 生成的各種文字提示的訓練,以提高模型處理使用者可能想出描述特定 3D 物件的各種短語的能力,例如,理解具有各種犬類物種的提示都應該產生像狗一樣的形狀。

(首圖來源:輝達提供)