Tag Archives: AI 推理

六倍壓縮與零精度損失,Google TurboQuant 重寫 AI 推理規則

作者 |發布日期 2026 年 04 月 13 日 7:00 | 分類 AI 人工智慧 , Google , 技術分析

大型語言模型(LLM)應用規模持續擴張,推理階段的記憶體瓶頸已成為制約部署效益的核心問題。Google Research 3 月底發表的 TurboQuant 壓縮演算法,不重新訓練模型的前提下,大幅降低記憶體占用並提升運算效率,引發產業高度關注。

繼續閱讀..

從通用算力到極致專用:Hard-coded Inference 重塑 AI 推理的經濟邊界

作者 |發布日期 2026 年 03 月 19 日 7:00 | 分類 AI 人工智慧 , 半導體 , 技術分析

當前 AI 產業的重心已從早期模型訓練轉向推理端部署,此本質上為研發投入轉向營運獲利的商業過渡,訓練雖是高資本投入,但屬於低頻次的研發,推理卻是與營收直接連動的高頻成本中心,若單位 Token 成本無法最佳化,商業模式將難以存續。

繼續閱讀..