阿里通義千問推圖像編輯模型 Qwen-Image-Edit

作者 | 發布日期 2025 年 08 月 19 日 12:45 | 分類 AI 人工智慧 , 軟體、系統 line share Linkedin share follow us in feedly line share
Loading...
阿里通義千問推圖像編輯模型 Qwen-Image-Edit

綜合中媒報導,阿里巴巴旗下阿里雲通義千問 19 日宣布推出 Qwen-Image-Edit 圖像編輯版本。Qwen-Image-Edit 基於 20B 的 Qwen-Image 模型進一步訓練,成功將 Qwen-Image 的獨特的文本渲染能力延展至圖像編輯領域,實現了對圖片中文字的精準編輯。

Qwen-Image-Edit將輸入圖像同時輸入到Qwen2.5-VL(實現視覺語義控制)和VAE Encoder(實現視覺外觀控制),進而兼具語義與外觀的雙重編輯能力;用戶可訪問Qwen Chat並選擇「圖像編輯」功能進行體驗。

Qwen-Image-Edit的主要特性包括:

一、語義與外觀雙重編輯:Qwen-Image-Edit不僅支援low-level的視覺外觀編輯(如元素的添加、刪除、修改等,要求圖片其他區域完全不變),並支援high-level的視覺語義編輯(如IP創作、物體旋轉、風格遷移等,允許整體畫素變化但保持語義一致)。

二、精準文字編輯:Qwen-Image-Edit支持中英文雙語文字編輯,可在保留原有字體、字型大小、風格的前提下,直接對圖片中的文字進行增、刪、改等操作。

三、強大的基準性能:在多個公開基準測試中的評估表明,Qwen-Image-Edit在圖像編輯任務上具備SOTA性能,是一個強大的圖像編輯基礎模型。

Qwen-Image-Edit的一大亮點在於其語義與外觀雙重編輯能力。所謂語義編輯,是指在保持原始圖像視覺語義不變的前提下,對圖像內容進行修改。

(本文由 MoneyDJ新聞 授權轉載;首圖來源:Qwen

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》