馬斯克點讚月之暗面 Kimi 突破性論文!作者之一竟只是 17 歲高中生

作者 | 發布日期 2026 年 03 月 23 日 7:10 | 分類 AI 人工智慧 , 科技教育 line share Linkedin share follow us in feedly line share
Loading...
馬斯克點讚月之暗面 Kimi 突破性論文!作者之一竟只是 17 歲高中生

中國 AI 公司月之暗面(Moonshot AI)旗下 Kimi 團隊 16 日發表論文〈Attention Residuals〉,顛覆沿用近十年殘差連接架構的全新機制,特斯拉 CEO 馬斯克(Elon Musk)同日晚上在社群平台點讚並留言「令人印象深刻」。論文並列第一作者之一,是深圳高三生陳廣宇(Guangyu Chen),今年僅 17 歲,接觸 AI 還不到一年。

傳統殘差連接的瓶頸

現有大型語言模型(LLM)普遍採用「殘差連接」(Residual Connection)架構,原理類似逐層搬運貨物上樓,每上一層就把之前資料一併帶走。模型加深後累積資料愈多,早期重要資訊反而愈來愈容易被後層數據稀釋。Kimi 團隊論文指出,這種固定均一的累積方式使隱藏狀態隨深度膨脹,削弱每層實際影響力,並製造不可逆的資訊損失。

AttnRes 機制如何改寫規則

Kimi 提出的 Attention Residuals(AttnRes)機制,以 softmax 注意力取代固定殘差累積,讓每層主動從過去各層篩選出最有用資訊並動態分配權重。研究員提出 Block Attention Residuals(Block AttnRes),壓縮層數分組,確保跨層注意力對大型模型有實用性。擁有 480 億總參數(30 億觸發參數)的 Kimi Linear 架構,AttnRes 可創造 1.25 倍算力優勢,推理延遲增加低於 2%,下游各評測任務均有提升。Moonshot AI 已在 GitHub 公開完整技術報告及程式碼。

入行一年的 17 歲研究員

陳廣宇現就讀深圳某高中高三,深入接觸 AI 還不到一年。他最初是從 AI 相關論文自學、追蹤 GitHub 開源專案建立基礎,去年暑假赴舊金山實習七週,回中國後 11 月加入 Kimi 團隊實習,最終以並列共同第一作者完成論文。另兩名作者為 Kimi 高效模型架構核心研發員張宇,以及旋轉位置編碼(RoPE)提出者蘇劍林。

論文發表後,陳廣宇希望外界焦點不要放在他身上,多關注團隊攻克的大模型底層技術,並強調成果離不開 34 位其他參與作者及負責模型擴展與基礎設施建設的同事。

(本文由 Unwire HK 授權轉載;首圖來源:Moonshot AI

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》