Yang Goufang

Posted on Apr 1

不是模型變強，而是記憶變便宜：TurboQuant 的技術真相、華爾街恐慌與學術風暴

#ai #deeplearning #llm #machinelearning

一句話摘要： TurboQuant 是真正重要的工程突破——但 Google 的行銷包裝、學術倫理爭議、與華爾街的過度反應，讓這個故事遠比技術本身更戲劇化。

零、這篇文章要回答的問題

Google Research 發了一篇 ICLR 2026 論文 TurboQuant（arXiv 2504.19874），宣稱能把大模型的 KV Cache 記憶體壓縮 6 倍、加速 8 倍、零精度損失。

然後，以下事情在同一週發生了：

全球記憶體股市值蒸發超過 $900 億美元
ETH Zürich 研究員公開指控涉嫌學術抄襲與實驗造假
Google 不公開任何程式碼——結果社群數天內就復刻出來，有人甚至只用 Claude Code 看數學公式就 7 天從零建出完整實作，還加了自己的研究貢獻

這到底是什麼論文，能同時引爆華爾街、學術界和開源社群？

一、為什麼 KV Cache 是 AI 真正的瓶頸

在討論 TurboQuant 之前，必須先理解一件事：現代大模型的瓶頸早就不是模型參數本身，而是 KV Cache。

當模型在生成文字時，它必須記住前面所有的對話歷史（Attention 歷史）。這個被稱為 KV Cache 的中間結果，會隨著 Context 長度線性增長。

具體數字：

模型	Context 長度	KV Cache 大小
70B 模型	128K tokens	~40 GB
35B 模型	100K tokens	~20 GB

40 GB 的 KV Cache——比模型本身還大。這就是業界說的 Memory Wall。

你的模型明明只有 8B，但當塞入 100K 的 codebase 時，VRAM 會瞬間被吃爆。這也是為什麼記憶體現在這麼貴、為什麼 HBM 是 AI 硬體最稀缺的資源。

TurboQuant 要解的就是這個問題：不讓模型變聰明，而是讓 AI 的「記憶」變得極端便宜。

二、技術拆解：TurboQuant 到底做了什麼

TurboQuant 本質上是兩個工程手段的組合：

PolarQuant：讓資料「變好壓」

傳統量化的大敵是離群值（Outliers）——少數極端數值會讓整體壓縮精度崩潰。

PolarQuant 的做法：先對資料做隨機旋轉（Random Rotation），再將其轉換成極座標（角度 + 半徑）。數學上，這利用了高維空間中隨機旋轉後各座標近似獨立的性質，讓數值分布變得極度穩定。

結果：不再需要繁瑣的 per-block normalization，省下大量 metadata 空間。

QJL（Quantized Johnson-Lindenstrauss）：用 1 bit 修正誤差

壓縮必然有損。QJL 把量化誤差投影出來，只用極小的成本——存儲「正/負」的 1 bit 資訊來進行修正，目標是確保 Attention 的內積計算不偏離軌道。

一句話總結：先用旋轉讓資料變得好壓縮，再用 1-bit 把誤差拉回來。

三、拆解 Hype：Google 沒大聲說的事

Google 論文宣稱：6x memory reduction, 8x speed, zero accuracy loss。

身為工程師，我們必須把這層包裝拆掉。

「6x 記憶體壓縮」— 大致正確，但有落差

來源	壓縮比
Google 論文（3-bit）	6x
turboquant_plus 社群實測（3-bit）	4.6–5.1x
turboquant_plus（4-bit）	3.8x
turboquant_plus（2-bit）	6.4x
tonbistudio PyTorch 實作	~5x

結論：3-bit 下約 4.6–5.7x，非精確的 6x。大方向正確，但行銷語言偏高。

「8x 加速」— 這是最需要澄清的數字

8x 是 4-bit vs FP32 在 H100 上 Attention logit 計算的比較——不是端到端推理速度。

社群端到端實測（llama.cpp / Metal）：

指標	結果
單一請求 TPS（Tokens Per Second）	比 q8_0 慢 7–24%
系統吞吐量（Throughput）	提升 2–4x（因為 VRAM 省下來可以塞更多併發）

為什麼會變慢？ 每生成一個 Token，GPU 都必須即時反量化（Dequantization）壓縮過的 KV Cache。我們緩解了 Memory-bound，卻把壓力轉到了 Compute-bound。

這不是缺陷，而是 Trade-off：用單兵 TPS 的些微下降，換取系統級的巨大擴展性。 但 Google 用「8x」作為標題數字，而不解釋這只是 Attention 部分的比較，確實有誤導之嫌。

「零精度損失」— 有條件成立

3.5 bits：LongBench 50.06 vs FP32 baseline，Needle-in-Haystack 100 分（4K–104K）——確實無損
2.5 bits：論文自己寫「邊際退化」
極端複雜的程式碼推理場景：仍需觀望

QJL 的實際效果：社群打臉

這是最重要的社群發現：6 個獨立團隊確認 QJL（論文中的 Algorithm 2）在實務上反而會降低 Attention 品質。

多數社群實作現在已經棄用 QJL，只使用 MSE-optimal 量化（Algorithm 1）。論文中最優雅的理論貢獻，在工程實踐中反而是負分——這是學術論文與生產環境之間的經典落差。

四、華爾街恐慌：一篇論文蒸發 $900 億

Google 在 3/24 於官方 Blog 推廣 TurboQuant 後，全球記憶體股遭到拋售：

股票	跌幅
Micron (MU)	連跌 6 天，累計 -20%，跌入熊市
SK Hynix	-6.23%
Samsung	-4.8%（後續累計 -20%）
SanDisk	單日 -11%
Kioxia	-6%
累計市值蒸發	>$900 億美元

Citi 下調 Micron 目標價。韓國 KOSPI 指數一個月內從 6,300 跌到 5,000（TurboQuant 只是其中一個因素）。

但恐慌合理嗎？

Seeking Alpha 分析師的觀點值得思考：經濟學中的傑文斯悖論（Jevons Paradox）告訴我們——當一項資源的使用效率提高、單次成本下降時，它的總消耗量反而會暴增。

當長 Context 變便宜，我們不會少買 RAM。我們只會跑更龐大的 Agent 系統、更長的 Context Window、更多的併發請求。最終總記憶體需求反而會指數級上升。

多位分析師維持記憶體股買入評級，認為效率提升歷史上從未減少總需求——只會加速採用。

五、學術風暴：ETH Zürich 指控抄襲與實驗造假

這件事是整個故事中最嚴重的。

高健揚——ETH Zürich 博士後、RaBitQ 第一作者——公開發表聲明（dev.to 全文），指出三個問題：

問題 1：涉嫌學術抄襲

TurboQuant 的核心方法（量化前施加隨機旋轉）與 RaBitQ 有直接結構聯繫。更關鍵的證據：

TurboQuant 第二作者 Majid Daliri 在 2025 年 1 月主動聯繫 RaBitQ 團隊，請求幫助調試他自己基於 RaBitQ 的 Python 實作。

這代表 TurboQuant 團隊對 RaBitQ 技術有充分了解。但論文中將 RaBitQ 描述為「grid-based PQ」，刻意省略了 RaBitQ 同樣使用隨機旋轉的核心步驟。

問題 2：理論貢獻被曲解

TurboQuant 論文直接將 RaBitQ 定性為「理論次優」（theoretically suboptimal），聲稱其分析「相對粗糙」。

但 RaBitQ 的擴展版已在頂級理論計算機科學會議上發表，嚴格證明其誤差界達到漸近最優（matching Alon-Klartag bound）。

問題 3：實驗對比造假

這是最離譜的：

測試對象	硬體環境
RaBitQ	單核 CPU + Python 翻譯版 + 多線程關閉
TurboQuant	NVIDIA A100 GPU

然後報告「RaBitQ 慢數個數量級」。Daliri 自己在 2025 年 5 月的郵件中承認："we were using a single-core CPU instance, and multiprocessing was indeed disabled."

時間線

時間	事件
2024/05	RaBitQ 論文上 arXiv，附完整原始碼
2025/01	Daliri 主動聯繫高健揚請求調試協助
2025/04	TurboQuant 上 arXiv
2025/05	高健揚郵件澄清三個問題；Daliri 稱已告知共同作者，但之後停止回應
2025/11	高健揚發現未修正的論文提交至 ICLR
2026/01	ICLR 接受 TurboQuant
2026/03	Google 大規模推廣；高健揚公開發聲，Stanford NLP Group 轉發

TurboQuant 團隊的回應： 同意在 ICLR 會後處理問題 2 和 3，但拒絕討論問題 1（方法論重疊），理由是「隨機旋轉和 JL 變換已是該領域的標準技術，不可能逐一引用所有使用它們的方法」。

六、開源社群的反擊：Claude Code 7 天復刻

Google 沒釋出任何程式碼。社群的反應是：那我們自己來。

數十個獨立實作在數天內出現，其中最令人印象深刻的是 Tom Turney 的 turboquant_plus：

7 天，從零開始，用 Claude Code 看數學公式建出完整實作。 不只是復刻——他還加了自己的研究貢獻：

貢獻	描述
Sparse V	跳過 90% 低權重 V 位置的解壓縮，+22.8% decode 速度，零精度損失
Temporal Decay	舊 token 自動降精度，進一步壓縮歷史記憶
非對稱 K/V 配置	Key 用 4-bit、Value 用 2-bit（因為 K/V 的 norm 差異可達 4–182x）

已在 Qwen 3.5 35B-A3B（MoE）上通過 llama.cpp Metal 端到端驗證，511+ 測試，100% 覆蓋率。

這件事的意義超越 TurboQuant 本身： 當數學公式足夠清晰，AI Coding Agent 已經可以直接從論文到實作。學術論文不公開程式碼的「護城河」正在消失。

七、對 AI 生態的真正影響

Agent 生態：從短期反應到持續思考

Agent 的本質是「長記憶 + 多步推理」。過去 Agent 執行久了會「失憶」或成本飆升。

KV Cache 壓縮 4–5x 意味著：

Agent 可以保留極長的任務歷史與子任務上下文
多智能體系統的成本大幅降低——以前開一個 Agent 就占用一份巨大的 KV Cache
平行 Agent 數量可以翻數倍

Claude Code / Codex：Repository-Level Reasoning

以前受限於 KV Cache，AI 寫程式只能看部分程式碼，需要不斷 Chunking。當記憶變便宜，整個 Repo + Git History 都能無痛塞進 Context，跨檔案推理與大型重構的品質將質變。

本地端 AI：從 Demo 到 Usable

已有人用 TurboQuant + llama.cpp 在 Apple Silicon 上跑 122B 模型執行 Claude Code 級別的任務——不用雲端、不用 API、不用月費。35B 模型 + 長文本推理在消費級硬體上正式成為可能。

推論成本的結構性改變

以前：成本 ≈ 模型大小
現在：成本 ≈ KV Cache × 併發數

當 KV Cache 縮小 4–5x，雲端廠商單台機器可服務更多用戶。API 定價的下一波雪崩即將到來。

八、結語：下一步是什麼

TurboQuant 的歷史意義，不在於它讓 AI 變得更聰明，而在於它改變了使用 AI 的成本結構。

天下沒有白吃的午餐——我們用 TPS 的些微延遲，換取了 Context 長度與併發數的自由。

可以預見的下一步：大模型的 KV Cache 將演化出類似 CPU 的 L1/L2/L3 Cache Hierarchy——熱數據放在無壓縮的高速 VRAM 確保 TPS，冷歷史數據透過 TurboQuant 壓縮存放在較慢的層級。

當記憶不再是負擔，AI 才真正做好了全面接管複雜工程的準備。

但在那之前，Google 或許應該先處理一下那個學術倫理問題。

參考資料

你怎麼看——TurboQuant 是被高估了，還是被低估了？歡迎留言討論。

DEV Community