Yang Goufang

Posted on Jun 11

有人在拆 Transformer：Memory Caching 與 CTM 各拆走了一半

#machinelearning #ai #transformers #deeplearning

這篇要談的兩篇研究——Google 的 Memory Caching（RNNs with Growing Memory）和 Sakana AI 的 Continuous Thought Machine（CTM）——常被包裝成「Transformer 殺手」。不是。它們是兩篇研究論文，不是產品，也不是要取代 Transformer。把它們放在一起讀，真正的故事只有一句：

Transformer 的 self-attention 把記憶（在上下文裡 recall）和計算（思考發生在 forward pass）綁在同一個機制裡，代價是 O(L²)。這兩篇各拆走一半。

Memory Caching 拆記憶那一半，CTM 拆計算那一半。理解了這個軸，後面所有細節都會歸位。

一個先講清楚的規矩：本文只採用原論文能支持的宣稱。二手文章裡那些「在 SWE-bench / GPQA 上如何如何」的數字，凡是回不到原論文的，一律不寫。這兩篇論文本身都沒有報告 SWE-bench 結果——把二手整理的 agent 數字寫成論文結論，是這個題目最常見的造假。

一、成本牆：融在一起的代價

先講為什麼有人想拆。

self-attention 可以理解成一種可微分的關聯記憶：每個 query 去比對所有 key，加權讀取 value。這讓模型很會在上下文裡做 recall，也讓 in-context learning 成立。但序列長度是 L 時，完整 self-attention 的時間與空間成本是 O(L²)。相關理論工作也指出，這個二次成本不只是實作不夠好，而有更深的計算複雜度限制（見 On the Computational Complexity of Self-Attention）。

推理時 KV cache 緩解了自回歸生成重複計算歷史 token 的問題，但沒有免費午餐：KV cache 本身吃大量顯存，每生成一個 token 仍要與整段上下文互動。當上下文從 8K 推到 128K、1M，瓶頸通常從 FLOPs 轉向記憶體容量、記憶體頻寬、服務成本。

這裡要區分清楚一件事，因為後面會反覆用到：「發布」≠「可用」≠「可商用」。長上下文視窗能跑，跟它在你的延遲與成本預算內能跑，是兩回事。成本牆主要卡在「可商用」這一層——而這兩篇論文，目前都還停在「論文能跑」的更前面一層。

把這個機制拆開看，它其實同時做了兩件事：記住很多、可以讀取很多（記憶），以及運算就發生在這一次前向傳播裡（計算）。Transformer 把這兩件事用一個機制、一個 O(L²) 的價格綁在一起。接下來的兩篇論文，分別質疑其中一半。

二、Memory Caching：拆「記憶」那一半

這篇出自 Ali Behrouz 等人（Google），也就是做 Titans 的同一個團隊（arXiv:2602.24281，2026 年 2 月）。先記住這個團隊背景，到第四節會用上。

傳統 recurrent model 的核心問題是固定記憶。RNN、線性注意力、某些 state-space 或 recurrent memory 變體，把過去壓縮進一個固定大小的 hidden state。這帶來 O(L) 的效率，卻造成長序列下的資訊擠壓：越往後，早期資訊越容易被覆蓋、模糊、遺忘。

Memory Caching 的想法很直接：不要只留當前 hidden state。把序列切成多個 segment，每個 segment 結束時的 memory state 當作 checkpoint 存下來（cache）。後續 token 不只查詢「當前線上記憶」，也能查詢過去 segment 的 cached hidden states。換句話說，RNN 不再只有一本不斷被覆寫的筆記本，而是定期留下壓縮快照。

論文摘要把這個方法的定位講得很清楚：它提供一個介於兩端之間的可調折衷——RNN 的固定記憶（O(L)）和 Transformer 的成長記憶（O(L²)）之間。

這裡可以建立一個直覺（以下是我從機制推導的直覺，不是論文引用的複雜度結果）：假設每段長度 s、整段長度 L，需要查詢的 cached memory 約 L/s 個。若每個 token 都查所有 checkpoint，成本可粗略視為 O(L × L/s) = O(L²/s)。把 s 想成一個旋鈕：s 越大、越接近普通 RNN 的 O(L)；s 越小、checkpoint 越密、越往光譜的另一端靠。它不是魔法般消除成本，而是給你一個刻度：用多少記憶，換多少 recall。（嚴格說 s=1 並不等於 attention——那只是光譜的極端，不是同一個東西，這點不要過度宣稱。）

論文提出四種使用 cached memory 的方法，命名都來自論文本體（Introduction 的「Novel Aggregation Strategies」與各節標題，例如 §3.2 就叫 MEMORY SOUP）：(Gated) Residual Memory——用殘差連接加上 context-aware gating 聚合多個記憶狀態；Memory Soup——借自 weight souping，平均多個 cached memory module 的參數（對非線性記憶才有區別）；Sparse Selective Caching (SSC)——用類似 MoE router 的方式只選最相關的 top-k cached memory 參與讀取，控制超長上下文成本。摘要只用了簡短說法「gated aggregation and sparse selective mechanisms」，完整命名在正文，要查以論文本體為準。

落地視角：Memory Caching 沒有消除成本，它把成本變成可調的。要判斷它能不能進真實 workflow，該問的不是「它比 RNN 強多少」，而是 retrieval fan-out 多大、cached memory 的記憶體頻寬代價多少、跟單純加大 KV cache 比省在哪。論文本身沒回答這些工程問題——這是「論文能跑」和「可商用」之間還沒跨過的距離。

從技術信仰看，這篇務實：它不否定 Transformer 的成長記憶有價值，反而承認它有價值，然後問——能不能用壓縮的記憶 checkpoint 拿到一部分好處，而不付全額 O(L²)。

三、CTM：拆「計算」那一半

CTM 出自 Sakana AI（東京，Darlow、Regan、Risi 等人，arXiv:2505.05522，NeurIPS 2025 Spotlight）。值得一提：共同作者裡有 Llion Jones——Attention Is All You Need 的原作者之一、Sakana 共同創辦人。當年提出 Transformer 的人，現在在拆它，這件事本身就有意思。它的問題意識和 Memory Caching 完全不同：它不太管長上下文 recall，它質疑的是現代神經網路對「時間」與「計算」的抽象方式。

先解名，因為名字本身就是論點。Continuous Thought Machine——「思考」是一個沿著內部時間連續展開的過程，而不是一次前向傳播吐一個答案。和 Memory Caching 的字面命名不同，CTM 的名字是個主張：思考有長度。

三個機制（全部對照論文本體確認過）：

1. Internal ticks（內部時間軸，與序列長度 decoupled）。 論文原文："The CTM uses an internal dimension t∈{1,…,T}, decoupled from data dimensions." 模型沿一條自己生成的時間軸 t ∈ {1,…,T} 展開，這條軸和輸入序列無關。即使輸入是一張靜態圖片，CTM 也能在內部跑 50 個 tick，不斷更新神經活動、重新注意輸入、修正輸出。這就是「計算」這一半被從序列長度上拆下來的關鍵。

2. Neuron-level models（NLM，神經元級的時間處理）。 標準網路裡，一個 neuron 多半只是一次 activation：輸入進來、過非線性、吐一個值。CTM 給每個 neuron 一個自己的小型 MLP g_θd，處理它自身的 pre-activation history。神經元不再是靜態函數，而是有局部時間歷史的微型處理器。

3. Synchronization as latent representation（用同步當表示）。 這是最反直覺、也最核心的一點。CTM 不直接拿某一刻的 hidden state 當表示，而是追蹤不同 neuron 的活動歷史，計算 neuron pairs 之間的同步：S_t = Z_t · (Z_t)ᵀ（Z_t 是到第 t 個 tick 為止的神經元活動歷史矩陣；同步用的神經元對在初始化時隨機取若干對，例如 32 對）。這個 synchronization 再被投影成 attention query（action synchronization）和輸出 logits（output synchronization）。換句話說，模型真正拿來決策的，不是單一時間切片，而是神經活動在時間上的協調模式。

Adaptive compute。 CTM 在每個 tick 都產出 yt，並算 certainty = 1 − normalized entropy。推理時可以設一個門檻（例如 0.8），certainty 夠高就提前停。難的 instance 多想幾個 tick，簡單的早停。計算量隨輸入難度變化——這就是「計算這一半」變成可調旋鈕的具體樣子。

順帶分清楚：CTM 和 chain-of-thought 不是同一回事

你可能會想到 chain-of-thought（CoT）。值得先把兩者分開——它們不在同一層。

CoT 是提示技巧，跑在普通 Transformer 上：你讓模型把「Step 1… Step 2…」寫成輸出 token，思考過程就是那串文字。想多想一點，就是多寫 token——成本仍綁在序列長度上，仍走 O(L²) 那條路。

CTM 是架構，不是提示。它的「思考」不產生任何 token：模型沿內部時間軸展開神經活動，可以對一張靜態圖片跑 50 個 tick，輸出零個中間 token。一句話分辨：CoT 用 token 思考，CTM 用內部時間思考。 這個差別正是本文的主軸——CoT 是在 Transformer 既有的機制裡爭取更多推理（所以付一樣的 token 帳單），CTM 則把推理從 token 軸上整個拿開。

四、同一個問題的兩半

現在把兩篇放回一起。它們不是「對決」，也不是兩個競爭的賭注——它們在拆同一個東西的不同部位。

Transformer 的 self-attention 同時扛了記憶和計算，付 O(L²)。

Memory Caching 拆記憶軸：讓 recall 便宜、可增長，不走完整的二次成本。它的成敗好衡量——Needle-in-a-Haystack、LongBench、in-context retrieval 這類任務。
CTM 拆計算軸：讓內部計算時間和序列長度脫鉤，用神經動態與同步當核心。它關心的是「同一個輸入能不能投入不同長度的內部思考」，更接近推理、規劃、模擬。

這也是為什麼第二節要你記住 Behrouz 是 Titans 團隊：Memory Caching 是「外部／顯式記憶」這條線的延伸思路——記憶是一個可以加掛、可調成本的層。CTM 走的是另一個方向——計算不是一次性的前向傳播，而是一段可以拉長的內部過程。一個在問「記憶怎麼便宜」，一個在問「計算怎麼動態」。

所以它們互補，不互斥。把它們擺成「誰取代誰」會錯過重點——重點是 Transformer 把兩件事綁死了，而現在有人開始分別鬆綁。

五、Scaling law 會被改寫嗎？

傳統 scaling law 關注三個變數：model size、data size、training compute。Kaplan 等人的工作強化了「規模帶來可預測進步」的信念；Chinchilla 進一步指出固定訓練算力下，參數量與訓練 token 數要更平衡地擴張。

這兩篇不會推翻這些 scaling law。但它們各自提示一個新變數正在變重要——以下是推論，不是論文宣稱：

Memory Caching 指向 memory capacity / retrieval cost。 模型不只要大，還要能用合理成本保存與檢索長期資訊。未來的 scaling 帳，可能不能只看參數和 token，還要看記憶容量、壓縮率、retrieval fan-out、記憶頻寬。
CTM 指向 test-time compute / internal dynamics。 模型不只在訓練時花算力，也在推理時分配內部思考步數。若難題需要更多 tick、簡單題可早停，那 scaling 就不只是「訓練更大的模型」，還包括「測試時怎麼有效花算力」。

這兩個推論都錨在前面講過的機制上——O(L²/s) 那個旋鈕、tick 數那個旋鈕——不是憑感覺喊未來。能不能成立，要看後續有沒有人在真實規模上把這兩個旋鈕跑出可預測的曲線。目前沒有。

六、實驗數據與現實局限

這節最重要，因為它決定了前面所有東西該打幾折。再說一次：這是兩篇研究論文，不是產品。

CTM 的驗證任務（對照論文本體）：2D maze（39×39，並可重複套用泛化到 99×99）、ImageNet-1K（搭配 ResNet-152 特徵抽取器、50 個 tick 下 72.47% top-1，論文自己也說不是衝著 accuracy 來的）、parity（64-bit 累積 XOR）、CIFAR-10/100、sorting、Q&A MNIST、RL（CartPole、Acrobot、MiniGrid）。注意那個 ImageNet 數字是 CTM 接在強 CNN backbone 上的結果，不是端到端的獨立分類器——把它讀成「CTM 自己拿到 72%」會高估。論文明講不是要刷 SOTA："preliminary and not intended to beat state-of-the-art … a limitation of this paper is its relatively limited depth of comparison since we favored breadth." 自陳限制也很清楚：internal sequence 讓訓練時間拉長，NLM 增加參數量。換句話說，它買到的「內部思考」是用訓練成本和參數量換的——這正是「可商用」層該追問的代價。還有一筆推理側的帳：certainty 早停是 data-dependent 的，難的 instance 會一路跑到滿 T 個 tick，per-instance 延遲不固定，會讓延遲預算和 batched serving 變難——adaptive compute 的彈性不是免費的。

Memory Caching 的有效證據主要在語言建模、長上下文理解、in-context recall。論文摘要的措辭很誠實：在 recall 密集的任務上，Transformer 仍取得最佳準確率，MC 變體做到的是「競爭性表現、縮小與 Transformer 的差距、勝過 SOTA recurrent model」。注意這個層次——它不是宣稱打贏 Transformer，是宣稱在 recurrent 這條線裡把差距縮到值得一試。

兩篇都該謹慎解讀的共同點：截至可見的原論文資料，都沒有正式報告 SWE-bench / SWE-bench Verified / SWE-bench Pro 結果。如果你在某篇二手文章看到這些架構「在 agent 工具調用上如何如何」的數字，而那數字回不到原論文——它就不該被當成論文結論。這不是吹毛求疵，這是「發布 ≠ 可用 ≠ 可商用」的最後一道防線。

七、重新組裝

如果你接受第四節那個框架——Transformer 把記憶和計算綁在一起，這兩篇各拆一半——那麼下一步是什麼，幾乎是邏輯上的必然，而不是許願：拆開之後，把它們重新組裝。

未來更可能出現的不是某個單一架構勝出，而是混合架構：Transformer 保留強大的通用建模能力當基座；一個 Memory-Caching-like 的層提供長期、低成本、可選擇性讀取的記憶；一個 CTM-like 的核心提供內部推理時間與 adaptive compute。記憶軸便宜化、計算軸動態化，各司其職。對需要長期互動的 agent 或 world model，這個分工特別合理——昂貴的 attention 不該扛所有歷史，內部推理也不該被序列長度綁死。

需要標明：這一節是推論，不是任何一篇論文的宣稱。 沒有人證明這個組裝會成立。但如果你問「為什麼會有人同時做這兩個方向」，答案不是巧合——是因為它們在拆同一個東西。

結語

Transformer 不會立刻退場。它的軟硬體生態、訓練 recipe、開源工具鏈、產業部署都太成熟，短期內仍是主流基座。

但架構競爭的焦點正在改變。下一階段的進步，不會只靠堆參數和拉長上下文。記憶怎麼便宜、計算怎麼動態——這兩件被 self-attention 綁在一起、現在被分別鬆綁的事，會變成新的核心問題。

Memory Caching 和 CTM 的共同訊號不是「Transformer 要被取代了」。是更安靜的一句：有人開始拆它了。Transformer 的統治還沒結束，但它的孤獨時代正在結束。

參考來源

Memory Caching: RNNs with Growing Memory — Behrouz, Li, Deng, Zhong, Razaviyayn, Mirrokni (Google). arXiv:2602.24281 — https://arxiv.org/abs/2602.24281
Continuous Thought Machines — Darlow, Regan, Risi, Seely, Llion Jones (Sakana AI). arXiv:2505.05522 — https://arxiv.org/abs/2505.05522
Continuous Thought Machines — NeurIPS 2025 (Spotlight), OpenReview — https://openreview.net/forum?id=y0wDflmpLk
Continuous Thought Machines — Sakana AI 官方互動 demo／blog（同一研究） — https://pub.sakana.ai/ctm/
Attention Is All You Need — https://arxiv.org/abs/1706.03762
Scaling Laws for Neural Language Models（Kaplan et al.）— https://arxiv.org/abs/2001.08361
Training Compute-Optimal Large Language Models（Chinchilla）— https://arxiv.org/abs/2203.15556
On the Computational Complexity of Self-Attention — https://arxiv.org/abs/2209.04881

DEV Community