DEV Community

Cover image for 不是模型變強,而是記憶變便宜:TurboQuant 的技術真相、華爾街恐慌與學術風暴
Yang Goufang
Yang Goufang

Posted on

不是模型變強,而是記憶變便宜:TurboQuant 的技術真相、華爾街恐慌與學術風暴

一句話摘要: TurboQuant 是真正重要的工程突破——但 Google 的行銷包裝、學術倫理爭議、與華爾街的過度反應,讓這個故事遠比技術本身更戲劇化。


零、這篇文章要回答的問題

Google Research 發了一篇 ICLR 2026 論文 TurboQuant(arXiv 2504.19874),宣稱能把大模型的 KV Cache 記憶體壓縮 6 倍、加速 8 倍、零精度損失。

然後,以下事情在同一週發生了:

  1. 全球記憶體股市值蒸發超過 $900 億美元
  2. ETH Zürich 研究員公開指控涉嫌學術抄襲與實驗造假
  3. Google 不公開任何程式碼——結果社群數天內就復刻出來,有人甚至只用 Claude Code 看數學公式就 7 天從零建出完整實作,還加了自己的研究貢獻

這到底是什麼論文,能同時引爆華爾街、學術界和開源社群?


一、為什麼 KV Cache 是 AI 真正的瓶頸

在討論 TurboQuant 之前,必須先理解一件事:現代大模型的瓶頸早就不是模型參數本身,而是 KV Cache。

當模型在生成文字時,它必須記住前面所有的對話歷史(Attention 歷史)。這個被稱為 KV Cache 的中間結果,會隨著 Context 長度線性增長

具體數字:

模型 Context 長度 KV Cache 大小
70B 模型 128K tokens ~40 GB
35B 模型 100K tokens ~20 GB

40 GB 的 KV Cache——比模型本身還大。這就是業界說的 Memory Wall

你的模型明明只有 8B,但當塞入 100K 的 codebase 時,VRAM 會瞬間被吃爆。這也是為什麼記憶體現在這麼貴、為什麼 HBM 是 AI 硬體最稀缺的資源。

TurboQuant 要解的就是這個問題:不讓模型變聰明,而是讓 AI 的「記憶」變得極端便宜。


二、技術拆解:TurboQuant 到底做了什麼

TurboQuant 本質上是兩個工程手段的組合:

PolarQuant:讓資料「變好壓」

傳統量化的大敵是離群值(Outliers)——少數極端數值會讓整體壓縮精度崩潰。

PolarQuant 的做法:先對資料做隨機旋轉(Random Rotation),再將其轉換成極座標(角度 + 半徑)。數學上,這利用了高維空間中隨機旋轉後各座標近似獨立的性質,讓數值分布變得極度穩定。

結果:不再需要繁瑣的 per-block normalization,省下大量 metadata 空間。

QJL(Quantized Johnson-Lindenstrauss):用 1 bit 修正誤差

壓縮必然有損。QJL 把量化誤差投影出來,只用極小的成本——存儲「正/負」的 1 bit 資訊來進行修正,目標是確保 Attention 的內積計算不偏離軌道。

一句話總結:先用旋轉讓資料變得好壓縮,再用 1-bit 把誤差拉回來。


三、拆解 Hype:Google 沒大聲說的事

Google 論文宣稱:6x memory reduction, 8x speed, zero accuracy loss

身為工程師,我們必須把這層包裝拆掉。

「6x 記憶體壓縮」— 大致正確,但有落差

來源 壓縮比
Google 論文(3-bit) 6x
turboquant_plus 社群實測(3-bit) 4.6–5.1x
turboquant_plus(4-bit) 3.8x
turboquant_plus(2-bit) 6.4x
tonbistudio PyTorch 實作 ~5x

結論:3-bit 下約 4.6–5.7x,非精確的 6x。大方向正確,但行銷語言偏高。

「8x 加速」— 這是最需要澄清的數字

8x 是 4-bit vs FP32 在 H100 上 Attention logit 計算的比較——不是端到端推理速度。

社群端到端實測(llama.cpp / Metal):

指標 結果
單一請求 TPS(Tokens Per Second) 比 q8_0 7–24%
系統吞吐量(Throughput) 提升 2–4x(因為 VRAM 省下來可以塞更多併發)

為什麼會變慢? 每生成一個 Token,GPU 都必須即時反量化(Dequantization)壓縮過的 KV Cache。我們緩解了 Memory-bound,卻把壓力轉到了 Compute-bound。

這不是缺陷,而是 Trade-off:用單兵 TPS 的些微下降,換取系統級的巨大擴展性。 但 Google 用「8x」作為標題數字,而不解釋這只是 Attention 部分的比較,確實有誤導之嫌。

「零精度損失」— 有條件成立

  • 3.5 bits:LongBench 50.06 vs FP32 baseline,Needle-in-Haystack 100 分(4K–104K)——確實無損
  • 2.5 bits:論文自己寫「邊際退化」
  • 極端複雜的程式碼推理場景:仍需觀望

QJL 的實際效果:社群打臉

這是最重要的社群發現:6 個獨立團隊確認 QJL(論文中的 Algorithm 2)在實務上反而會降低 Attention 品質。

多數社群實作現在已經棄用 QJL,只使用 MSE-optimal 量化(Algorithm 1)。論文中最優雅的理論貢獻,在工程實踐中反而是負分——這是學術論文與生產環境之間的經典落差。


四、華爾街恐慌:一篇論文蒸發 $900 億

Google 在 3/24 於官方 Blog 推廣 TurboQuant 後,全球記憶體股遭到拋售:

股票 跌幅
Micron (MU) 連跌 6 天,累計 -20%,跌入熊市
SK Hynix -6.23%
Samsung -4.8%(後續累計 -20%)
SanDisk 單日 -11%
Kioxia -6%
累計市值蒸發 >$900 億美元

Citi 下調 Micron 目標價。韓國 KOSPI 指數一個月內從 6,300 跌到 5,000(TurboQuant 只是其中一個因素)。

但恐慌合理嗎?

Seeking Alpha 分析師的觀點值得思考:經濟學中的傑文斯悖論(Jevons Paradox)告訴我們——當一項資源的使用效率提高、單次成本下降時,它的總消耗量反而會暴增

當長 Context 變便宜,我們不會少買 RAM。我們只會跑更龐大的 Agent 系統、更長的 Context Window、更多的併發請求。最終總記憶體需求反而會指數級上升

多位分析師維持記憶體股買入評級,認為效率提升歷史上從未減少總需求——只會加速採用。


五、學術風暴:ETH Zürich 指控抄襲與實驗造假

這件事是整個故事中最嚴重的。

高健揚——ETH Zürich 博士後、RaBitQ 第一作者——公開發表聲明(dev.to 全文),指出三個問題:

問題 1:涉嫌學術抄襲

TurboQuant 的核心方法(量化前施加隨機旋轉)與 RaBitQ 有直接結構聯繫。更關鍵的證據:

TurboQuant 第二作者 Majid Daliri 在 2025 年 1 月主動聯繫 RaBitQ 團隊,請求幫助調試他自己基於 RaBitQ 的 Python 實作。

這代表 TurboQuant 團隊對 RaBitQ 技術有充分了解。但論文中將 RaBitQ 描述為「grid-based PQ」,刻意省略了 RaBitQ 同樣使用隨機旋轉的核心步驟。

問題 2:理論貢獻被曲解

TurboQuant 論文直接將 RaBitQ 定性為「理論次優」(theoretically suboptimal),聲稱其分析「相對粗糙」。

但 RaBitQ 的擴展版已在頂級理論計算機科學會議上發表,嚴格證明其誤差界達到漸近最優(matching Alon-Klartag bound)。

問題 3:實驗對比造假

這是最離譜的:

測試對象 硬體環境
RaBitQ 單核 CPU + Python 翻譯版 + 多線程關閉
TurboQuant NVIDIA A100 GPU

然後報告「RaBitQ 慢數個數量級」。Daliri 自己在 2025 年 5 月的郵件中承認:"we were using a single-core CPU instance, and multiprocessing was indeed disabled."

時間線

時間 事件
2024/05 RaBitQ 論文上 arXiv,附完整原始碼
2025/01 Daliri 主動聯繫高健揚請求調試協助
2025/04 TurboQuant 上 arXiv
2025/05 高健揚郵件澄清三個問題;Daliri 稱已告知共同作者,但之後停止回應
2025/11 高健揚發現未修正的論文提交至 ICLR
2026/01 ICLR 接受 TurboQuant
2026/03 Google 大規模推廣;高健揚公開發聲,Stanford NLP Group 轉發

TurboQuant 團隊的回應: 同意在 ICLR 會後處理問題 2 和 3,但拒絕討論問題 1(方法論重疊),理由是「隨機旋轉和 JL 變換已是該領域的標準技術,不可能逐一引用所有使用它們的方法」。


六、開源社群的反擊:Claude Code 7 天復刻

Google 沒釋出任何程式碼。社群的反應是:那我們自己來。

數十個獨立實作在數天內出現,其中最令人印象深刻的是 Tom Turneyturboquant_plus

7 天,從零開始,用 Claude Code 看數學公式建出完整實作。 不只是復刻——他還加了自己的研究貢獻:

貢獻 描述
Sparse V 跳過 90% 低權重 V 位置的解壓縮,+22.8% decode 速度,零精度損失
Temporal Decay 舊 token 自動降精度,進一步壓縮歷史記憶
非對稱 K/V 配置 Key 用 4-bit、Value 用 2-bit(因為 K/V 的 norm 差異可達 4–182x)

已在 Qwen 3.5 35B-A3B(MoE)上通過 llama.cpp Metal 端到端驗證,511+ 測試,100% 覆蓋率。

這件事的意義超越 TurboQuant 本身: 當數學公式足夠清晰,AI Coding Agent 已經可以直接從論文到實作。學術論文不公開程式碼的「護城河」正在消失。


七、對 AI 生態的真正影響

Agent 生態:從短期反應到持續思考

Agent 的本質是「長記憶 + 多步推理」。過去 Agent 執行久了會「失憶」或成本飆升。

KV Cache 壓縮 4–5x 意味著:

  • Agent 可以保留極長的任務歷史與子任務上下文
  • 多智能體系統的成本大幅降低——以前開一個 Agent 就占用一份巨大的 KV Cache
  • 平行 Agent 數量可以翻數倍

Claude Code / Codex:Repository-Level Reasoning

以前受限於 KV Cache,AI 寫程式只能看部分程式碼,需要不斷 Chunking。當記憶變便宜,整個 Repo + Git History 都能無痛塞進 Context,跨檔案推理與大型重構的品質將質變。

本地端 AI:從 Demo 到 Usable

已有人用 TurboQuant + llama.cpp 在 Apple Silicon 上跑 122B 模型執行 Claude Code 級別的任務——不用雲端、不用 API、不用月費。35B 模型 + 長文本推理在消費級硬體上正式成為可能。

推論成本的結構性改變

以前:成本 ≈ 模型大小
現在:成本 ≈ KV Cache × 併發數

當 KV Cache 縮小 4–5x,雲端廠商單台機器可服務更多用戶。API 定價的下一波雪崩即將到來。


八、結語:下一步是什麼

TurboQuant 的歷史意義,不在於它讓 AI 變得更聰明,而在於它改變了使用 AI 的成本結構

天下沒有白吃的午餐——我們用 TPS 的些微延遲,換取了 Context 長度與併發數的自由。

可以預見的下一步:大模型的 KV Cache 將演化出類似 CPU 的 L1/L2/L3 Cache Hierarchy——熱數據放在無壓縮的高速 VRAM 確保 TPS,冷歷史數據透過 TurboQuant 壓縮存放在較慢的層級。

當記憶不再是負擔,AI 才真正做好了全面接管複雜工程的準備。

但在那之前,Google 或許應該先處理一下那個學術倫理問題。


參考資料


你怎麼看——TurboQuant 是被高估了,還是被低估了?歡迎留言討論。

Top comments (0)