阿里通義千問推首個圖像生成基礎模型 Qwen-Image

綜合中媒報導，阿里巴巴旗下阿里雲通義千問團隊 5 日宣布開源 Qwen-Image，其為 20B 的 MMDiT 模型，也是通義千問系列中首個圖像生成基礎模型。Qwen-Image 的主要特性包括文本渲染能力、一致性的圖像編輯能力、跨基準性能表現；其中，Qwen-Image 在複雜文本渲染方面表現出色，支持多行布局、段落級文本生成以及細粒度細節呈現，無論是英語還是中文，均能實現高保真輸出。

據悉，通義千問團隊在多個公開基準上對Qwen-Image進行了全面評估，包括用於通用圖像生成的GenEval、DPG和OneIG-Bench，以及用於圖像編輯的GEdit、ImgEdit和GSO。Qwen-Image在所有基準測試中均取得了最先進的性能，展現出其在圖像生成與圖像編輯方面的強大能力。

同時，在用於文本渲染的LongText-Bench、ChineseWord和TextCraft上的結果表明，Qwen-Image在文本渲染方面表現尤為出色，特別是在中文文本渲染上，大幅領先現有的最先進模型。

此外，除了文本處理，Qwen-Image在通用圖像生成方面也表現出色，支持多種藝術風格，從照片級寫實場景到印象派繪畫，從動漫風格到極簡設計，該模型能夠靈活回應各種創意提示。在圖像編輯方面，Qwen-Image支持風格遷移、增刪改、細節增強、文字編輯，人物姿態調整等多種操作，這讓普通用戶也能實現專業級的圖像編輯。

（本文由 MoneyDJ新聞授權轉載；首圖來源：Qwen）