改善模型性能與成本,DeepSeek 新論文公開「mHC」架構

作者 | 發布日期 2026 年 01 月 02 日 13:14 | 分類 AI 人工智慧 line share Linkedin share follow us in feedly line share
Loading...
改善模型性能與成本,DeepSeek 新論文公開「mHC」架構

DeepSeek 的研究人員開發一項名為「mHC」(Manifold-Constrained Hyper-Connections)技術,用來提升 AI 模型性能。

2026 年第一天,DeepSeek 發表論文公開 mHC 這項技術,目的在於強化大型語言模型用來學習資訊的「殘差連接」(Residual Connection)機制。這種機制在 2015 年被提出,也被廣泛應用在許多視覺模型上。DeepSeek 並非第一個嘗試改進殘差連接的市場參與者,但過往的嘗試成果好壞參半;如今 DeepSeek 將以 mHC 推動模型性能進化,可望用於日後的新模型。

首先,一款模型由許多稱為「層」(layer)的軟體元件構成。當使用者對 AI 工具輸入問題提示時,文字會進入第一層,該層負責生成回應所需運算中的一小部分。第一層將其運算結果傳遞給第二層,完成另一部分工作後,又將運算結果傳遞給第三層,以此類推,直到最後一層向使用者輸出問題的答案。

最後一層在 AI 的訓練過程扮演關鍵角色。若模型輸出的回應不正確,最後一層會接收到一種稱為梯度(gradient)的訊號。梯度代表 AI 出現錯誤,同時也包含模型該如何改進的資訊。這個梯度會從最後一層開始,沿著原先結構反向傳遞、直達第一層。

2015 年,研究人員發明殘差連接的梯度管理機制,它提供一種捷徑,能讓梯度在 2 個距離甚遠的 AI 層之間直接傳遞,無需經過中間層。殘差連接可緩解多種常見的 AI 訓練誤差,因此被廣泛用於大型語言模型與視覺模型。

2025 年 9 月,就有研究人員提出一種殘差連接的替代方案,稱為「超連接」(Hyper-Connections),解決了殘差連接容易放大處理訊號等缺點,但自身仍存在限制。

DeepSeek 新公開的 mHC 架構,是對超連接的強化實作,主要在於引進所謂歧管(manifold),它是一種複雜的數學物件,將單一通道拓寬成多條平行通道,讓每一層都能在通道之間重新分配資訊,同時彷彿設置安全地圖,使訊號不超出範圍。DeepSeek 論文強調,mHC 利用它來維持梯度在模型各層之間傳遞的穩定性。

DeepSeek 以 3 款分別擁有 30 億、90 億及 270 億參數的大型語言模型測試 mHC 架構,另外訓練 3 款參數量相同、但採用超連接技術的模型作為對照。根據 DeepSeek 的說法,採用 mHC 的大型語言模型在 8 項不同的 AI 基準測試表現更好。

DeepSeek 也指出,與超連接相比,mHC 架構在硬體使用上更有效率。超連接機制會在訓練過程大幅提高模型的記憶體需求,在內部測試中,DeepSeek 發現 mHC 的硬體額外負擔只有 6.27%。

「mHC 有助於解決目前的限制,並為下一代基礎模型架構的演進照亮新的發展路徑」,DeepSeek 論文寫到。

值得一提的是,這篇論文列出 19 名作者,DeepSeek 創辦人梁文鋒(Wenfeng Liang)也有署名,顯示他參與和引領 DeepSeek 研究方向,並推動團隊重新思考下一代 AI 系統的建構方式。

(首圖來源:Unsplash

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》