阿里最新多模態模型開源主打視覺語言

綜合中媒報導，在 DeepSeek-V3 更新的同一夜，阿里巴巴旗下阿里雲通義千問 Qwen 發表 Qwen2.5-VL-32B-Instruct，先前開源家族視覺語言模型 Qwen2.5-VL 包括 3B、7B 和 72B 三種尺寸，這次的 32B 版本進一步兼顧尺寸和性能，可在本地運行，並經過強化學習優化，在三個方面改進顯著，包括回答更符合人類偏好、擁有更強的數學推理能力，以及在圖像解析、內容辨識、視覺邏輯推導等任務中，表現出更強的準確性和細粒度分析能力。

據悉，對比近期開源的Mistral-Small-3.1-24B、Gemma-3-27B-IT等，Qwen2.5-VL-32B在純文字能力上達到了同規模的最優表現。在多個基準上，Qwen2.5-VL-32B甚至超過了72B，例如根據一張交通指示牌照片，Qwen2.5-VL-32B就能做出精細的圖像理解和推理。