
綜合中媒報導,阿里巴巴旗下阿里雲 23 日發布並開源了全新的 Qwen3-Omni、Qwen3-TTS,以及對標 Google Nano Banana 圖像編輯工具的 Qwen-Image-Edit-2509。
Qwen3-Omni為首個原生端到端全模態AI模型,可處理文本、圖像、音訊和影片多種類型的輸入,並可透過文本與自然語音即時流式輸出結果,解決了長期以來多模態模型需要在不同能力之間進行權衡取捨的難題。
同時發布的Qwen3-TTS-Flash在語音合成速度與品質上超越主流模型,首包延遲低至97ms。此外,Qwen-Image-Edit-2509顯著提升圖像編輯一致性,支援多圖輸入與Control Net控制。此外,Qwen3-TTS-Flash 在多項評估基準上均取得了SoTA的表現,超越SeedTTS、MiniMax、GPT-4o-Audio-Preview、Elevenlabs,尤其是在語音穩定性和音色相似度。