阿里最新多模態模型開源 主打視覺語言

作者 | 發布日期 2025 年 03 月 25 日 15:45 | 分類 AI 人工智慧 , 軟體、系統 line share Linkedin share follow us in feedly line share
Loading...
阿里最新多模態模型開源 主打視覺語言

綜合中媒報導,在 DeepSeek-V3 更新的同一夜,阿里巴巴旗下阿里雲通義千問 Qwen 發表 Qwen2.5-VL-32B-Instruct,先前開源家族視覺語言模型 Qwen2.5-VL 包括 3B、7B 和 72B 三種尺寸,這次的 32B 版本進一步兼顧尺寸和性能,可在本地運行,並經過強化學習優化,在三個方面改進顯著,包括回答更符合人類偏好、擁有更強的數學推理能力,以及在圖像解析、內容辨識、視覺邏輯推導等任務中,表現出更強的準確性和細粒度分析能力。

據悉,對比近期開源的Mistral-Small-3.1-24B、Gemma-3-27B-IT等,Qwen2.5-VL-32B在純文字能力上達到了同規模的最優表現。在多個基準上,Qwen2.5-VL-32B甚至超過了72B,例如根據一張交通指示牌照片,Qwen2.5-VL-32B就能做出精細的圖像理解和推理。

(Source:Qwen

(本文由 MoneyDJ新聞 授權轉載;首圖來源:Qwen

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》