阿里發布千問新旗艦推理模型號稱性能媲美 GPT-5

綜合中媒及港媒報導，阿里巴巴 26 日正式發布千問旗艦推理模型 Qwen3-Max-Thinking。據官方指出，其在多個關鍵維度上實現了顯著提升，包括事實知識、複雜推理、指令遵循、人類偏好對齊以及智慧體能力。模型總參數量超過兆，預訓練數據量達到36T Tokens，是目前阿里規模最大、能力最強的千問推理模型。

在19項公認基準測試中，Qwen3-Max-Thinking整體性能可媲美GPT-5.2-Thinking、Claude Opus 4.5和Gemini 3 Pro等國際頂尖模型。Hugging Face數據顯示，Qwen成為全球首個衍生模式數量突破20萬的開源大模型。Qwen系列模型下載量突破10億次，平均每天被開發者下載110萬次，穩居全球開源大模型第一名。

此外，該模型採用全新的測試時擴展機制，實現推理性能大幅提升的同時更具經濟性。在啟用工具的HLE（Humanitys Last Exam）評測中，千問得分58.3，大幅超過GPT-5.2-Thinking的45.5和Gemini 3 Pro的45.8，錄得目前所有模型的最高分。

🚀 Introducing Qwen3-Max-Thinking, our most capable reasoning model yet. Trained with massive scale and advanced RL, it delivers strong performance across reasoning, knowledge, tool use, and agent capabilities.
✨ Key innovations:
✅ Adaptive tool-use: intelligently leverages… pic.twitter.com/6sZiKWQAq3

— Qwen (@Alibaba_Qwen) January 26, 2026