
中媒 IT 之家報導,阿里巴巴旗下阿里雲通義千問官方 6 日宣布,推出最新的推理模型 QwQ-32B,為一款擁有 320 億參數的模型,其性能可與具備 6,710 億參數(其中 370 億被啟動)的 DeepSeek-R1 媲美。
阿里雲指出,這項成果突顯了將強化學習應用於經過大規模預訓練的強大基礎模型的有效性,且內部還在推理模型中集成了與Agent相關的能力,使其能夠在使用工具的同時進行批判性思考,並根據環境回饋調整推理過程。
性能方面,阿里雲對QwQ-32B測試了數學推理、程式設計能力和通用能力,並展示了QwQ-32B與其他領先模型的性能對比,包括DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini以及原始的DeepSeek-R1。
阿里雲表示,這是Qwen在大規模強化學習(RL)以增強推理能力的第一步。透過這趟旅程,不僅見證擴展RL的巨大潛力,還認識到預訓練語言模型中尚未開發的可能性。而在致力開發下一代Qwen的過程中,已計畫將更強大的基礎模型與依託規模化運算資源的RL相結合,使其更接近實現人工通用智慧(AGI)。
(本文由 MoneyDJ新聞 授權轉載;首圖來源:shutterstock)