NVIDIA 28 日發表新模型 Nemotron 3 Nano Omni,是一款多模態開放模型,將視覺、語音及語言的能力整合至單一系統,讓 Agent 得以在影片、音訊、圖像、文字之間進行進階推理,快速智慧地提出回應。
Nemotron 3 系列包含 Nano、Super 及 Ultra 模型,過去一年已累積超過 5,000 萬次下載。Omni 則將這個系列模型的能力延伸至多模態和 Agent 領域。
以現今的客服 AI Agent 為例,它可能需要處理螢幕錄影、分析上傳的通話音訊,同時還要檢查資料紀錄,金融領域的可能還要解析 PDF、試算表、圖表及語音備忘錄。現今多數 AI Agent 系統分別以視覺、語音及語言的獨立模型來完成這些任務。但這種做法會因為反覆推理而增加延遲,導致跨模態的情境支離破碎,隨時間推移增加成本和誤差。
NVIDIA 開發的 Nemotron 3 Nano Omni,在 30B-A3B 的混合專家(Mixture of Experts,MoE)架構整合視覺和音訊編碼器,因此不再需要獨立的感知模型,進而大幅提升推理效率。這款模型將這項效率與強大的多模態感知準確度相結合,讓 AI 系統在具備相同互動性的情況下,能夠達到比其他多模態開放模型高出 9 倍的資料輸送量,在不犧牲回應速度和品質的同時,降低成本並提升可擴展性。
在 AI Agent 系統中,Nemotron 3 Nano Omni 能與專有雲端模型或其他 NVIDIA Nemotron 模型協同運作,例如用於高頻率執行的 Nemotron 3 Super、用於複雜規劃的 Nemotron 3 Ultra,也能與其他開發商的專有模型搭配,驅動電腦操作、文件智慧或影音推理等子代理。
Nemotron 3 Nano Omni 隨開放權重、資料集及訓練技術一同發布,讓企業能對模型的客製化和部署方式擁有高度的透明度和控制權。
開發人員可使用 NVIDIA NeMo 等工具,針對特定領域的應用進行客製化、評估及最佳化。由於 Nemotron 系列模型採開放形式,企業能夠將其部署於符合監管、主權或資料在地化要求的環境中。
Nemotron 3 Nano Omni 開放且輕量化的架構,支援從 NVIDIA Jetson 硬體、NVIDIA DGX Spark 和 DGX Station 等本地系統,再到資料中心和雲端環境的一致部署。
Nemotron 3 Nano Omni 已在 Hugging Face、OpenRouter 及 build.nvidia.com 上架,並以 NVIDIA NIM 微服務形式提供,也能透過 NVIDIA 雲端合作夥伴、推論平台及雲端服務供應商組成的生態系取得。目前已經採用 Nemotron 3 Nano Omni 的企業包括 Aible、Applied Scientific Intelligence(ASI)、Eka Care、鴻海科技集團、H Company、Palantir 及 Pyler,而戴爾科技集團、Docusign、Infosys、K-Dense、Lila、Oracle 及 Zefr 正在評估採用這款模型。

(Source:AI 生成)
(首圖來源:NVIDIA)






