一句話摘要: TurboQuant 是真正重要的工程突破——但 Google 的行銷包裝、學術倫理爭議、與華爾街的過度反應,讓這個故事遠比技術本身更戲劇化。
零、這篇文章要回答的問題
Google Research 發了一篇 ICLR 2026 論文 TurboQuant(arXiv 2504.19874),宣稱能把大模型的 KV Cache 記憶體壓縮 6 倍、加速 8 倍、零精度損失。
然後,以下事情在同一週發生了:
- 全球記憶體股市值蒸發超過 $900 億美元
- ETH Zürich 研究員公開指控涉嫌學術抄襲與實驗造假
- Google 不公開任何程式碼——結果社群數天內就復刻出來,有人甚至只用 Claude Code 看數學公式就 7 天從零建出完整實作,還加了自己的研究貢獻
這到底是什麼論文,能同時引爆華爾街、學術界和開源社群?
一、為什麼 KV Cache 是 AI 真正的瓶頸
在討論 TurboQuant 之前,必須先理解一件事:現代大模型的瓶頸早就不是模型參數本身,而是 KV Cache。
當模型在生成文字時,它必須記住前面所有的對話歷史(Attention 歷史)。這個被稱為 KV Cache 的中間結果,會隨著 Context 長度線性增長。
具體數字:
| 模型 | Context 長度 | KV Cache 大小 |
|---|---|---|
| 70B 模型 | 128K tokens | ~40 GB |
| 35B 模型 | 100K tokens | ~20 GB |
40 GB 的 KV Cache——比模型本身還大。這就是業界說的 Memory Wall。
你的模型明明只有 8B,但當塞入 100K 的 codebase 時,VRAM 會瞬間被吃爆。這也是為什麼記憶體現在這麼貴、為什麼 HBM 是 AI 硬體最稀缺的資源。
TurboQuant 要解的就是這個問題:不讓模型變聰明,而是讓 AI 的「記憶」變得極端便宜。
二、技術拆解:TurboQuant 到底做了什麼
TurboQuant 本質上是兩個工程手段的組合:
PolarQuant:讓資料「變好壓」
傳統量化的大敵是離群值(Outliers)——少數極端數值會讓整體壓縮精度崩潰。
PolarQuant 的做法:先對資料做隨機旋轉(Random Rotation),再將其轉換成極座標(角度 + 半徑)。數學上,這利用了高維空間中隨機旋轉後各座標近似獨立的性質,讓數值分布變得極度穩定。
結果:不再需要繁瑣的 per-block normalization,省下大量 metadata 空間。
QJL(Quantized Johnson-Lindenstrauss):用 1 bit 修正誤差
壓縮必然有損。QJL 把量化誤差投影出來,只用極小的成本——存儲「正/負」的 1 bit 資訊來進行修正,目標是確保 Attention 的內積計算不偏離軌道。
一句話總結:先用旋轉讓資料變得好壓縮,再用 1-bit 把誤差拉回來。
三、拆解 Hype:Google 沒大聲說的事
Google 論文宣稱:6x memory reduction, 8x speed, zero accuracy loss。
身為工程師,我們必須把這層包裝拆掉。
「6x 記憶體壓縮」— 大致正確,但有落差
| 來源 | 壓縮比 |
|---|---|
| Google 論文(3-bit) | 6x |
| turboquant_plus 社群實測(3-bit) | 4.6–5.1x |
| turboquant_plus(4-bit) | 3.8x |
| turboquant_plus(2-bit) | 6.4x |
| tonbistudio PyTorch 實作 | ~5x |
結論:3-bit 下約 4.6–5.7x,非精確的 6x。大方向正確,但行銷語言偏高。
「8x 加速」— 這是最需要澄清的數字
8x 是 4-bit vs FP32 在 H100 上 Attention logit 計算的比較——不是端到端推理速度。
社群端到端實測(llama.cpp / Metal):
| 指標 | 結果 |
|---|---|
| 單一請求 TPS(Tokens Per Second) | 比 q8_0 慢 7–24% |
| 系統吞吐量(Throughput) | 提升 2–4x(因為 VRAM 省下來可以塞更多併發) |
為什麼會變慢? 每生成一個 Token,GPU 都必須即時反量化(Dequantization)壓縮過的 KV Cache。我們緩解了 Memory-bound,卻把壓力轉到了 Compute-bound。
這不是缺陷,而是 Trade-off:用單兵 TPS 的些微下降,換取系統級的巨大擴展性。 但 Google 用「8x」作為標題數字,而不解釋這只是 Attention 部分的比較,確實有誤導之嫌。
「零精度損失」— 有條件成立
- 3.5 bits:LongBench 50.06 vs FP32 baseline,Needle-in-Haystack 100 分(4K–104K)——確實無損
- 2.5 bits:論文自己寫「邊際退化」
- 極端複雜的程式碼推理場景:仍需觀望
QJL 的實際效果:社群打臉
這是最重要的社群發現:6 個獨立團隊確認 QJL(論文中的 Algorithm 2)在實務上反而會降低 Attention 品質。
多數社群實作現在已經棄用 QJL,只使用 MSE-optimal 量化(Algorithm 1)。論文中最優雅的理論貢獻,在工程實踐中反而是負分——這是學術論文與生產環境之間的經典落差。
四、華爾街恐慌:一篇論文蒸發 $900 億
Google 在 3/24 於官方 Blog 推廣 TurboQuant 後,全球記憶體股遭到拋售:
| 股票 | 跌幅 |
|---|---|
| Micron (MU) | 連跌 6 天,累計 -20%,跌入熊市 |
| SK Hynix | -6.23% |
| Samsung | -4.8%(後續累計 -20%) |
| SanDisk | 單日 -11% |
| Kioxia | -6% |
| 累計市值蒸發 | >$900 億美元 |
Citi 下調 Micron 目標價。韓國 KOSPI 指數一個月內從 6,300 跌到 5,000(TurboQuant 只是其中一個因素)。
但恐慌合理嗎?
Seeking Alpha 分析師的觀點值得思考:經濟學中的傑文斯悖論(Jevons Paradox)告訴我們——當一項資源的使用效率提高、單次成本下降時,它的總消耗量反而會暴增。
當長 Context 變便宜,我們不會少買 RAM。我們只會跑更龐大的 Agent 系統、更長的 Context Window、更多的併發請求。最終總記憶體需求反而會指數級上升。
多位分析師維持記憶體股買入評級,認為效率提升歷史上從未減少總需求——只會加速採用。
五、學術風暴:ETH Zürich 指控抄襲與實驗造假
這件事是整個故事中最嚴重的。
高健揚——ETH Zürich 博士後、RaBitQ 第一作者——公開發表聲明(dev.to 全文),指出三個問題:
問題 1:涉嫌學術抄襲
TurboQuant 的核心方法(量化前施加隨機旋轉)與 RaBitQ 有直接結構聯繫。更關鍵的證據:
TurboQuant 第二作者 Majid Daliri 在 2025 年 1 月主動聯繫 RaBitQ 團隊,請求幫助調試他自己基於 RaBitQ 的 Python 實作。
這代表 TurboQuant 團隊對 RaBitQ 技術有充分了解。但論文中將 RaBitQ 描述為「grid-based PQ」,刻意省略了 RaBitQ 同樣使用隨機旋轉的核心步驟。
問題 2:理論貢獻被曲解
TurboQuant 論文直接將 RaBitQ 定性為「理論次優」(theoretically suboptimal),聲稱其分析「相對粗糙」。
但 RaBitQ 的擴展版已在頂級理論計算機科學會議上發表,嚴格證明其誤差界達到漸近最優(matching Alon-Klartag bound)。
問題 3:實驗對比造假
這是最離譜的:
| 測試對象 | 硬體環境 |
|---|---|
| RaBitQ | 單核 CPU + Python 翻譯版 + 多線程關閉 |
| TurboQuant | NVIDIA A100 GPU |
然後報告「RaBitQ 慢數個數量級」。Daliri 自己在 2025 年 5 月的郵件中承認:"we were using a single-core CPU instance, and multiprocessing was indeed disabled."
時間線
| 時間 | 事件 |
|---|---|
| 2024/05 | RaBitQ 論文上 arXiv,附完整原始碼 |
| 2025/01 | Daliri 主動聯繫高健揚請求調試協助 |
| 2025/04 | TurboQuant 上 arXiv |
| 2025/05 | 高健揚郵件澄清三個問題;Daliri 稱已告知共同作者,但之後停止回應 |
| 2025/11 | 高健揚發現未修正的論文提交至 ICLR |
| 2026/01 | ICLR 接受 TurboQuant |
| 2026/03 | Google 大規模推廣;高健揚公開發聲,Stanford NLP Group 轉發 |
TurboQuant 團隊的回應: 同意在 ICLR 會後處理問題 2 和 3,但拒絕討論問題 1(方法論重疊),理由是「隨機旋轉和 JL 變換已是該領域的標準技術,不可能逐一引用所有使用它們的方法」。
六、開源社群的反擊:Claude Code 7 天復刻
Google 沒釋出任何程式碼。社群的反應是:那我們自己來。
數十個獨立實作在數天內出現,其中最令人印象深刻的是 Tom Turney 的 turboquant_plus:
7 天,從零開始,用 Claude Code 看數學公式建出完整實作。 不只是復刻——他還加了自己的研究貢獻:
| 貢獻 | 描述 |
|---|---|
| Sparse V | 跳過 90% 低權重 V 位置的解壓縮,+22.8% decode 速度,零精度損失 |
| Temporal Decay | 舊 token 自動降精度,進一步壓縮歷史記憶 |
| 非對稱 K/V 配置 | Key 用 4-bit、Value 用 2-bit(因為 K/V 的 norm 差異可達 4–182x) |
已在 Qwen 3.5 35B-A3B(MoE)上通過 llama.cpp Metal 端到端驗證,511+ 測試,100% 覆蓋率。
這件事的意義超越 TurboQuant 本身: 當數學公式足夠清晰,AI Coding Agent 已經可以直接從論文到實作。學術論文不公開程式碼的「護城河」正在消失。
七、對 AI 生態的真正影響
Agent 生態:從短期反應到持續思考
Agent 的本質是「長記憶 + 多步推理」。過去 Agent 執行久了會「失憶」或成本飆升。
KV Cache 壓縮 4–5x 意味著:
- Agent 可以保留極長的任務歷史與子任務上下文
- 多智能體系統的成本大幅降低——以前開一個 Agent 就占用一份巨大的 KV Cache
- 平行 Agent 數量可以翻數倍
Claude Code / Codex:Repository-Level Reasoning
以前受限於 KV Cache,AI 寫程式只能看部分程式碼,需要不斷 Chunking。當記憶變便宜,整個 Repo + Git History 都能無痛塞進 Context,跨檔案推理與大型重構的品質將質變。
本地端 AI:從 Demo 到 Usable
已有人用 TurboQuant + llama.cpp 在 Apple Silicon 上跑 122B 模型執行 Claude Code 級別的任務——不用雲端、不用 API、不用月費。35B 模型 + 長文本推理在消費級硬體上正式成為可能。
推論成本的結構性改變
以前:成本 ≈ 模型大小
現在:成本 ≈ KV Cache × 併發數
當 KV Cache 縮小 4–5x,雲端廠商單台機器可服務更多用戶。API 定價的下一波雪崩即將到來。
八、結語:下一步是什麼
TurboQuant 的歷史意義,不在於它讓 AI 變得更聰明,而在於它改變了使用 AI 的成本結構。
天下沒有白吃的午餐——我們用 TPS 的些微延遲,換取了 Context 長度與併發數的自由。
可以預見的下一步:大模型的 KV Cache 將演化出類似 CPU 的 L1/L2/L3 Cache Hierarchy——熱數據放在無壓縮的高速 VRAM 確保 TPS,冷歷史數據透過 TurboQuant 壓縮存放在較慢的層級。
當記憶不再是負擔,AI 才真正做好了全面接管複雜工程的準備。
但在那之前,Google 或許應該先處理一下那個學術倫理問題。
參考資料
- TurboQuant 論文 (arXiv 2504.19874)
- Google Research Blog: TurboQuant
- 高健揚公開聲明 (dev.to)
- turboquant_plus — Tom Turney
- TurboQuant.net — 獨立分析
- CNBC: Memory stocks fall
- Seeking Alpha: Buy This Selloff
- Hacker News 討論串
你怎麼看——TurboQuant 是被高估了,還是被低估了?歡迎留言討論。
Top comments (0)