Nemotron 3 Nano Omni 開放模型發表，Agent 整合視覺、音訊及語言處理能力

NVIDIA 28 日發表新模型 Nemotron 3 Nano Omni，是一款多模態開放模型，將視覺、語音及語言的能力整合至單一系統，讓 Agent 得以在影片、音訊、圖像、文字之間進行進階推理，快速智慧地提出回應。

Nemotron 3 系列包含 Nano、Super 及 Ultra 模型，過去一年已累積超過 5,000 萬次下載。Omni 則將這個系列模型的能力延伸至多模態和 Agent 領域。

以現今的客服 AI Agent 為例，它可能需要處理螢幕錄影、分析上傳的通話音訊，同時還要檢查資料紀錄，金融領域的可能還要解析 PDF、試算表、圖表及語音備忘錄。現今多數 AI Agent 系統分別以視覺、語音及語言的獨立模型來完成這些任務。但這種做法會因為反覆推理而增加延遲，導致跨模態的情境支離破碎，隨時間推移增加成本和誤差。

NVIDIA 開發的 Nemotron 3 Nano Omni，在 30B-A3B 的混合專家（Mixture of Experts，MoE）架構整合視覺和音訊編碼器，因此不再需要獨立的感知模型，進而大幅提升推理效率。這款模型將這項效率與強大的多模態感知準確度相結合，讓 AI 系統在具備相同互動性的情況下，能夠達到比其他多模態開放模型高出 9 倍的資料輸送量，在不犧牲回應速度和品質的同時，降低成本並提升可擴展性。

在 AI Agent 系統中，Nemotron 3 Nano Omni 能與專有雲端模型或其他 NVIDIA Nemotron 模型協同運作，例如用於高頻率執行的 Nemotron 3 Super、用於複雜規劃的 Nemotron 3 Ultra，也能與其他開發商的專有模型搭配，驅動電腦操作、文件智慧或影音推理等子代理。

Nemotron 3 Nano Omni 隨開放權重、資料集及訓練技術一同發布，讓企業能對模型的客製化和部署方式擁有高度的透明度和控制權。

開發人員可使用 NVIDIA NeMo 等工具，針對特定領域的應用進行客製化、評估及最佳化。由於 Nemotron 系列模型採開放形式，企業能夠將其部署於符合監管、主權或資料在地化要求的環境中。

Nemotron 3 Nano Omni 開放且輕量化的架構，支援從 NVIDIA Jetson 硬體、NVIDIA DGX Spark 和 DGX Station 等本地系統，再到資料中心和雲端環境的一致部署。

Nemotron 3 Nano Omni 已在 Hugging Face、OpenRouter 及 build.nvidia.com 上架，並以 NVIDIA NIM 微服務形式提供，也能透過 NVIDIA 雲端合作夥伴、推論平台及雲端服務供應商組成的生態系取得。目前已經採用 Nemotron 3 Nano Omni 的企業包括 Aible、Applied Scientific Intelligence（ASI）、Eka Care、鴻海科技集團、H Company、Palantir 及 Pyler，而戴爾科技集團、Docusign、Infosys、K-Dense、Lila、Oracle 及 Zefr 正在評估採用這款模型。