馬斯克點讚月之暗面 Kimi 突破性論文！作者之一竟只是 17 歲高中生

中國 AI 公司月之暗面（Moonshot AI）旗下 Kimi 團隊 16 日發表論文〈Attention Residuals〉，顛覆沿用近十年殘差連接架構的全新機制，特斯拉 CEO 馬斯克（Elon Musk）同日晚上在社群平台點讚並留言「令人印象深刻」。論文並列第一作者之一，是深圳高三生陳廣宇（Guangyu Chen），今年僅 17 歲，接觸 AI 還不到一年。

傳統殘差連接的瓶頸

現有大型語言模型（LLM）普遍採用「殘差連接」（Residual Connection）架構，原理類似逐層搬運貨物上樓，每上一層就把之前資料一併帶走。模型加深後累積資料愈多，早期重要資訊反而愈來愈容易被後層數據稀釋。Kimi 團隊論文指出，這種固定均一的累積方式使隱藏狀態隨深度膨脹，削弱每層實際影響力，並製造不可逆的資訊損失。

AttnRes 機制如何改寫規則

Kimi 提出的 Attention Residuals（AttnRes）機制，以 softmax 注意力取代固定殘差累積，讓每層主動從過去各層篩選出最有用資訊並動態分配權重。研究員提出 Block Attention Residuals（Block AttnRes），壓縮層數分組，確保跨層注意力對大型模型有實用性。擁有 480 億總參數（30 億觸發參數）的 Kimi Linear 架構，AttnRes 可創造 1.25 倍算力優勢，推理延遲增加低於 2%，下游各評測任務均有提升。Moonshot AI 已在 GitHub 公開完整技術報告及程式碼。

入行一年的 17 歲研究員

陳廣宇現就讀深圳某高中高三，深入接觸 AI 還不到一年。他最初是從 AI 相關論文自學、追蹤 GitHub 開源專案建立基礎，去年暑假赴舊金山實習七週，回中國後 11 月加入 Kimi 團隊實習，最終以並列共同第一作者完成論文。另兩名作者為 Kimi 高效模型架構核心研發員張宇，以及旋轉位置編碼（RoPE）提出者蘇劍林。

論文發表後，陳廣宇希望外界焦點不要放在他身上，多關注團隊攻克的大模型底層技術，並強調成果離不開 34 位其他參與作者及負責模型擴展與基礎設施建設的同事。

（本文由 Unwire HK 授權轉載；首圖來源：Moonshot AI）