「另一個 DeepSeek 時刻！」TurboQuant 改變 AI 曲線，大摩談最關鍵影響

美系外資摩根士丹利（大摩）指出，這項壓縮演算法可讓 AI 推論速度提升 8 倍，同時記憶體使用量降低 6 倍。它作用於推論階段的 KV 快取（KV cache），因此能在單一 GPU 上產生更多輸出。

大摩認為，這對超大規模雲端業者（hyperscalers）與 LLM 平台是正面解讀，因為帶來顯著的投資報酬率（ROI）機會。從長期來看，對運算與記憶體產業也是正向因素。

大摩認為，短期影響來看，TurboQuant 僅針對推論時的 KV 快取、模型權重（GPU/TPU 上 HBM 的使用）與訓練工作負載不受影響，但它能讓同樣硬體支援 4～8 倍更長的上下文，或在不耗盡記憶體的情況下支援更大的 batch size（批次大小）。因此，這不代表整體記憶體或硬體需求下降 6 倍，而是提升效率，增加每顆 GPU 的吞吐量。

至於長期部分，大摩認為將出現「Jevons Paradox」（傑文斯悖論）效應，效率提升反而推動總需求增加。

TurboQuant 透過縮小資料體積與資料傳輸量，提升了加速器的吞吐效率，並降低單次查詢成本。

大摩指出，目前 AI 服務擴展最大的瓶頸在於「KV 快取」，若模型能在顯著降低記憶體需求的情況下維持效能，每次查詢的服務成本可大幅下降，進而提升 AI 部署的獲利能力。另一方面，原需要雲端叢集的模型，如今可在本地硬體上運行，實質上降低大規模部署 AI 的門檻。如此一來，當更多應用可以落地、更多模型能持續運作，既有基礎設施的利用率也隨之提升。

從這個角度來看，TurboQuant 與其說是漸進式優化，不如說是「改變 AI 部署的成本曲線」。對此，大摩甚至以「另一個 DeepSeek 時刻」來解釋這項技術。

大摩認為，這對超大規模雲端業者（hyperscalers）與模型平台而言是正面訊號，在長上下文推論與高檢索負載應用中，單位品質成本大幅下降，帶來顯著的投資報酬（ROI）機會；此外，更好的壓縮意味每個工作負載所需的「記憶體流量」與「GPU 運算時數下降」。

但單 Token 成本下降也可能帶動需求增加（例如更大批次、更長上下文），形成抵銷效果；另一方面，對軟體層來說，這是負面的邊際效果，因為壓縮能力可能被直接整合進平台基礎設施之中，削弱了軟體價值。

（首圖來源：shutterstock）