騰訊混元推 0.3B 端側模型首個產業級 2Bit 量化新突破

綜合中媒報導，騰訊旗下騰訊混元 10 日宣布，正式推出面向消費級硬體場景的「極小」模型 HY-1.8B-2Bit，等效參數量僅 0.3B，記憶體占用僅 600MB，比常用的一些手機應用還小。

據悉，該模型基於產業級2Bit端測量化方案打造，對比原始精度模型等效參數量降低了6倍，並且在沿用原模型全思考能力同時，在真實端側設備上對比原始精度模型生成速度提升2至3倍，可大幅提升使用體驗。

騰訊混元指出，隨著大語言模型普及，如何將模型在比如手機、耳機或者智慧家居設備應用，成為業界難題，尤其不少應用對模型的離線部署、私密性等都有更高的需求，這就需要更多能夠在端側運行的又小又強的模型。

騰訊混元續指出，端側部署的展開，本質上是一條在「小而精，快而準」的艱難探索之路，既需要模型足夠聰明，能應對千變萬化的真實需求，又必須將它約束在極其有限的硬體資源內部署並快速推理，這就好像在給模型進行「減脂增肌，減重提質」。

部署方面，騰訊混元提供了HY-1.8B-2Bit的gguf-int2格式的模型權重與bf16偽量化權重，對比原始精度模型，HY-1.8B-2Bit實際模型大小直降6倍，僅有300MB，能夠靈活用於端側設備上。該模型也已在Arm等計算平台上完成適配，可部署於啟用Arm SME2技術的行動設備上，並實現高效運行。

（本文由 MoneyDJ新聞授權轉載；首圖來源：騰訊混元）