阿里通義千問推圖像編輯模型 Qwen-Image-Edit

綜合中媒報導，阿里巴巴旗下阿里雲通義千問 19 日宣布推出 Qwen-Image-Edit 圖像編輯版本。Qwen-Image-Edit 基於 20B 的 Qwen-Image 模型進一步訓練，成功將 Qwen-Image 的獨特的文本渲染能力延展至圖像編輯領域，實現了對圖片中文字的精準編輯。

Qwen-Image-Edit將輸入圖像同時輸入到Qwen2.5-VL（實現視覺語義控制）和VAE Encoder（實現視覺外觀控制），進而兼具語義與外觀的雙重編輯能力；用戶可訪問Qwen Chat並選擇「圖像編輯」功能進行體驗。

Qwen-Image-Edit的主要特性包括：

一、語義與外觀雙重編輯：Qwen-Image-Edit不僅支援low-level的視覺外觀編輯（如元素的添加、刪除、修改等，要求圖片其他區域完全不變），並支援high-level的視覺語義編輯（如IP創作、物體旋轉、風格遷移等，允許整體畫素變化但保持語義一致）。

二、精準文字編輯：Qwen-Image-Edit支持中英文雙語文字編輯，可在保留原有字體、字型大小、風格的前提下，直接對圖片中的文字進行增、刪、改等操作。

三、強大的基準性能：在多個公開基準測試中的評估表明，Qwen-Image-Edit在圖像編輯任務上具備SOTA性能，是一個強大的圖像編輯基礎模型。

Qwen-Image-Edit的一大亮點在於其語義與外觀雙重編輯能力。所謂語義編輯，是指在保持原始圖像視覺語義不變的前提下，對圖像內容進行修改。

（本文由 MoneyDJ新聞授權轉載；首圖來源：Qwen）

從這裡可透過《Google 新聞》追蹤 TechNews

科技新知，時時更新

想請我們喝幾杯咖啡？