這篇要談的兩篇研究——Google 的 Memory Caching(RNNs with Growing Memory)和 Sakana AI 的 Continuous Thought Machine(CTM)——常被包裝成「Transformer 殺手」。不是。它們是兩篇研究論文,不是產品,也不是要取代 Transformer。把它們放在一起讀,真正的故事只有一句:
Transformer 的
self-attention把記憶(在上下文裡 recall)和計算(思考發生在 forward pass)綁在同一個機制裡,代價是 O(L²)。這兩篇各拆走一半。
Memory Caching 拆記憶那一半,CTM 拆計算那一半。理解了這個軸,後面所有細節都會歸位。
一個先講清楚的規矩:本文只採用原論文能支持的宣稱。二手文章裡那些「在 SWE-bench / GPQA 上如何如何」的數字,凡是回不到原論文的,一律不寫。這兩篇論文本身都沒有報告 SWE-bench 結果——把二手整理的 agent 數字寫成論文結論,是這個題目最常見的造假。
一、成本牆:融在一起的代價
先講為什麼有人想拆。
self-attention 可以理解成一種可微分的關聯記憶:每個 query 去比對所有 key,加權讀取 value。這讓模型很會在上下文裡做 recall,也讓 in-context learning 成立。但序列長度是 L 時,完整 self-attention 的時間與空間成本是 O(L²)。相關理論工作也指出,這個二次成本不只是實作不夠好,而有更深的計算複雜度限制(見 On the Computational Complexity of Self-Attention)。
推理時 KV cache 緩解了自回歸生成重複計算歷史 token 的問題,但沒有免費午餐:KV cache 本身吃大量顯存,每生成一個 token 仍要與整段上下文互動。當上下文從 8K 推到 128K、1M,瓶頸通常從 FLOPs 轉向記憶體容量、記憶體頻寬、服務成本。
這裡要區分清楚一件事,因為後面會反覆用到:「發布」≠「可用」≠「可商用」。長上下文視窗能跑,跟它在你的延遲與成本預算內能跑,是兩回事。成本牆主要卡在「可商用」這一層——而這兩篇論文,目前都還停在「論文能跑」的更前面一層。
把這個機制拆開看,它其實同時做了兩件事:記住很多、可以讀取很多(記憶),以及運算就發生在這一次前向傳播裡(計算)。Transformer 把這兩件事用一個機制、一個 O(L²) 的價格綁在一起。接下來的兩篇論文,分別質疑其中一半。
二、Memory Caching:拆「記憶」那一半
這篇出自 Ali Behrouz 等人(Google),也就是做 Titans 的同一個團隊(arXiv:2602.24281,2026 年 2 月)。先記住這個團隊背景,到第四節會用上。
傳統 recurrent model 的核心問題是固定記憶。RNN、線性注意力、某些 state-space 或 recurrent memory 變體,把過去壓縮進一個固定大小的 hidden state。這帶來 O(L) 的效率,卻造成長序列下的資訊擠壓:越往後,早期資訊越容易被覆蓋、模糊、遺忘。
Memory Caching 的想法很直接:不要只留當前 hidden state。把序列切成多個 segment,每個 segment 結束時的 memory state 當作 checkpoint 存下來(cache)。後續 token 不只查詢「當前線上記憶」,也能查詢過去 segment 的 cached hidden states。換句話說,RNN 不再只有一本不斷被覆寫的筆記本,而是定期留下壓縮快照。
論文摘要把這個方法的定位講得很清楚:它提供一個介於兩端之間的可調折衷——RNN 的固定記憶(O(L))和 Transformer 的成長記憶(O(L²))之間。
這裡可以建立一個直覺(以下是我從機制推導的直覺,不是論文引用的複雜度結果):假設每段長度 s、整段長度 L,需要查詢的 cached memory 約 L/s 個。若每個 token 都查所有 checkpoint,成本可粗略視為 O(L × L/s) = O(L²/s)。把 s 想成一個旋鈕:s 越大、越接近普通 RNN 的 O(L);s 越小、checkpoint 越密、越往光譜的另一端靠。它不是魔法般消除成本,而是給你一個刻度:用多少記憶,換多少 recall。(嚴格說 s=1 並不等於 attention——那只是光譜的極端,不是同一個東西,這點不要過度宣稱。)
論文提出四種使用 cached memory 的方法,命名都來自論文本體(Introduction 的「Novel Aggregation Strategies」與各節標題,例如 §3.2 就叫 MEMORY SOUP):(Gated) Residual Memory——用殘差連接加上 context-aware gating 聚合多個記憶狀態;Memory Soup——借自 weight souping,平均多個 cached memory module 的參數(對非線性記憶才有區別);Sparse Selective Caching (SSC)——用類似 MoE router 的方式只選最相關的 top-k cached memory 參與讀取,控制超長上下文成本。摘要只用了簡短說法「gated aggregation and sparse selective mechanisms」,完整命名在正文,要查以論文本體為準。
落地視角:Memory Caching 沒有消除成本,它把成本變成可調的。要判斷它能不能進真實 workflow,該問的不是「它比 RNN 強多少」,而是 retrieval fan-out 多大、cached memory 的記憶體頻寬代價多少、跟單純加大 KV cache 比省在哪。論文本身沒回答這些工程問題——這是「論文能跑」和「可商用」之間還沒跨過的距離。
從技術信仰看,這篇務實:它不否定 Transformer 的成長記憶有價值,反而承認它有價值,然後問——能不能用壓縮的記憶 checkpoint 拿到一部分好處,而不付全額 O(L²)。
三、CTM:拆「計算」那一半
CTM 出自 Sakana AI(東京,Darlow、Regan、Risi 等人,arXiv:2505.05522,NeurIPS 2025 Spotlight)。值得一提:共同作者裡有 Llion Jones——Attention Is All You Need 的原作者之一、Sakana 共同創辦人。當年提出 Transformer 的人,現在在拆它,這件事本身就有意思。它的問題意識和 Memory Caching 完全不同:它不太管長上下文 recall,它質疑的是現代神經網路對「時間」與「計算」的抽象方式。
先解名,因為名字本身就是論點。Continuous Thought Machine——「思考」是一個沿著內部時間連續展開的過程,而不是一次前向傳播吐一個答案。和 Memory Caching 的字面命名不同,CTM 的名字是個主張:思考有長度。
三個機制(全部對照論文本體確認過):
1. Internal ticks(內部時間軸,與序列長度 decoupled)。 論文原文:"The CTM uses an internal dimension t∈{1,…,T}, decoupled from data dimensions." 模型沿一條自己生成的時間軸 t ∈ {1,…,T} 展開,這條軸和輸入序列無關。即使輸入是一張靜態圖片,CTM 也能在內部跑 50 個 tick,不斷更新神經活動、重新注意輸入、修正輸出。這就是「計算」這一半被從序列長度上拆下來的關鍵。
2. Neuron-level models(NLM,神經元級的時間處理)。 標準網路裡,一個 neuron 多半只是一次 activation:輸入進來、過非線性、吐一個值。CTM 給每個 neuron 一個自己的小型 MLP g_θd,處理它自身的 pre-activation history。神經元不再是靜態函數,而是有局部時間歷史的微型處理器。
3. Synchronization as latent representation(用同步當表示)。 這是最反直覺、也最核心的一點。CTM 不直接拿某一刻的 hidden state 當表示,而是追蹤不同 neuron 的活動歷史,計算 neuron pairs 之間的同步:S_t = Z_t · (Z_t)ᵀ(Z_t 是到第 t 個 tick 為止的神經元活動歷史矩陣;同步用的神經元對在初始化時隨機取若干對,例如 32 對)。這個 synchronization 再被投影成 attention query(action synchronization)和輸出 logits(output synchronization)。換句話說,模型真正拿來決策的,不是單一時間切片,而是神經活動在時間上的協調模式。
Adaptive compute。 CTM 在每個 tick 都產出 yt,並算 certainty = 1 − normalized entropy。推理時可以設一個門檻(例如 0.8),certainty 夠高就提前停。難的 instance 多想幾個 tick,簡單的早停。計算量隨輸入難度變化——這就是「計算這一半」變成可調旋鈕的具體樣子。
順帶分清楚:CTM 和 chain-of-thought 不是同一回事
你可能會想到 chain-of-thought(CoT)。值得先把兩者分開——它們不在同一層。
CoT 是提示技巧,跑在普通 Transformer 上:你讓模型把「Step 1… Step 2…」寫成輸出 token,思考過程就是那串文字。想多想一點,就是多寫 token——成本仍綁在序列長度上,仍走 O(L²) 那條路。
CTM 是架構,不是提示。它的「思考」不產生任何 token:模型沿內部時間軸展開神經活動,可以對一張靜態圖片跑 50 個 tick,輸出零個中間 token。一句話分辨:CoT 用 token 思考,CTM 用內部時間思考。 這個差別正是本文的主軸——CoT 是在 Transformer 既有的機制裡爭取更多推理(所以付一樣的 token 帳單),CTM 則把推理從 token 軸上整個拿開。
四、同一個問題的兩半
現在把兩篇放回一起。它們不是「對決」,也不是兩個競爭的賭注——它們在拆同一個東西的不同部位。
Transformer 的 self-attention 同時扛了記憶和計算,付 O(L²)。
- Memory Caching 拆記憶軸:讓 recall 便宜、可增長,不走完整的二次成本。它的成敗好衡量——Needle-in-a-Haystack、LongBench、in-context retrieval 這類任務。
- CTM 拆計算軸:讓內部計算時間和序列長度脫鉤,用神經動態與同步當核心。它關心的是「同一個輸入能不能投入不同長度的內部思考」,更接近推理、規劃、模擬。
這也是為什麼第二節要你記住 Behrouz 是 Titans 團隊:Memory Caching 是「外部/顯式記憶」這條線的延伸思路——記憶是一個可以加掛、可調成本的層。CTM 走的是另一個方向——計算不是一次性的前向傳播,而是一段可以拉長的內部過程。一個在問「記憶怎麼便宜」,一個在問「計算怎麼動態」。
所以它們互補,不互斥。把它們擺成「誰取代誰」會錯過重點——重點是 Transformer 把兩件事綁死了,而現在有人開始分別鬆綁。
五、Scaling law 會被改寫嗎?
傳統 scaling law 關注三個變數:model size、data size、training compute。Kaplan 等人的工作強化了「規模帶來可預測進步」的信念;Chinchilla 進一步指出固定訓練算力下,參數量與訓練 token 數要更平衡地擴張。
這兩篇不會推翻這些 scaling law。但它們各自提示一個新變數正在變重要——以下是推論,不是論文宣稱:
- Memory Caching 指向 memory capacity / retrieval cost。 模型不只要大,還要能用合理成本保存與檢索長期資訊。未來的 scaling 帳,可能不能只看參數和 token,還要看記憶容量、壓縮率、retrieval fan-out、記憶頻寬。
- CTM 指向 test-time compute / internal dynamics。 模型不只在訓練時花算力,也在推理時分配內部思考步數。若難題需要更多 tick、簡單題可早停,那 scaling 就不只是「訓練更大的模型」,還包括「測試時怎麼有效花算力」。
這兩個推論都錨在前面講過的機制上——O(L²/s) 那個旋鈕、tick 數那個旋鈕——不是憑感覺喊未來。能不能成立,要看後續有沒有人在真實規模上把這兩個旋鈕跑出可預測的曲線。目前沒有。
六、實驗數據與現實局限
這節最重要,因為它決定了前面所有東西該打幾折。再說一次:這是兩篇研究論文,不是產品。
CTM 的驗證任務(對照論文本體):2D maze(39×39,並可重複套用泛化到 99×99)、ImageNet-1K(搭配 ResNet-152 特徵抽取器、50 個 tick 下 72.47% top-1,論文自己也說不是衝著 accuracy 來的)、parity(64-bit 累積 XOR)、CIFAR-10/100、sorting、Q&A MNIST、RL(CartPole、Acrobot、MiniGrid)。注意那個 ImageNet 數字是 CTM 接在強 CNN backbone 上的結果,不是端到端的獨立分類器——把它讀成「CTM 自己拿到 72%」會高估。論文明講不是要刷 SOTA:"preliminary and not intended to beat state-of-the-art … a limitation of this paper is its relatively limited depth of comparison since we favored breadth." 自陳限制也很清楚:internal sequence 讓訓練時間拉長,NLM 增加參數量。換句話說,它買到的「內部思考」是用訓練成本和參數量換的——這正是「可商用」層該追問的代價。還有一筆推理側的帳:certainty 早停是 data-dependent 的,難的 instance 會一路跑到滿 T 個 tick,per-instance 延遲不固定,會讓延遲預算和 batched serving 變難——adaptive compute 的彈性不是免費的。
Memory Caching 的有效證據主要在語言建模、長上下文理解、in-context recall。論文摘要的措辭很誠實:在 recall 密集的任務上,Transformer 仍取得最佳準確率,MC 變體做到的是「競爭性表現、縮小與 Transformer 的差距、勝過 SOTA recurrent model」。注意這個層次——它不是宣稱打贏 Transformer,是宣稱在 recurrent 這條線裡把差距縮到值得一試。
兩篇都該謹慎解讀的共同點:截至可見的原論文資料,都沒有正式報告 SWE-bench / SWE-bench Verified / SWE-bench Pro 結果。如果你在某篇二手文章看到這些架構「在 agent 工具調用上如何如何」的數字,而那數字回不到原論文——它就不該被當成論文結論。這不是吹毛求疵,這是「發布 ≠ 可用 ≠ 可商用」的最後一道防線。
七、重新組裝
如果你接受第四節那個框架——Transformer 把記憶和計算綁在一起,這兩篇各拆一半——那麼下一步是什麼,幾乎是邏輯上的必然,而不是許願:拆開之後,把它們重新組裝。
未來更可能出現的不是某個單一架構勝出,而是混合架構:Transformer 保留強大的通用建模能力當基座;一個 Memory-Caching-like 的層提供長期、低成本、可選擇性讀取的記憶;一個 CTM-like 的核心提供內部推理時間與 adaptive compute。記憶軸便宜化、計算軸動態化,各司其職。對需要長期互動的 agent 或 world model,這個分工特別合理——昂貴的 attention 不該扛所有歷史,內部推理也不該被序列長度綁死。
需要標明:這一節是推論,不是任何一篇論文的宣稱。 沒有人證明這個組裝會成立。但如果你問「為什麼會有人同時做這兩個方向」,答案不是巧合——是因為它們在拆同一個東西。
結語
Transformer 不會立刻退場。它的軟硬體生態、訓練 recipe、開源工具鏈、產業部署都太成熟,短期內仍是主流基座。
但架構競爭的焦點正在改變。下一階段的進步,不會只靠堆參數和拉長上下文。記憶怎麼便宜、計算怎麼動態——這兩件被 self-attention 綁在一起、現在被分別鬆綁的事,會變成新的核心問題。
Memory Caching 和 CTM 的共同訊號不是「Transformer 要被取代了」。是更安靜的一句:有人開始拆它了。Transformer 的統治還沒結束,但它的孤獨時代正在結束。
參考來源
- Memory Caching: RNNs with Growing Memory — Behrouz, Li, Deng, Zhong, Razaviyayn, Mirrokni (Google). arXiv:2602.24281 — https://arxiv.org/abs/2602.24281
- Continuous Thought Machines — Darlow, Regan, Risi, Seely, Llion Jones (Sakana AI). arXiv:2505.05522 — https://arxiv.org/abs/2505.05522
- Continuous Thought Machines — NeurIPS 2025 (Spotlight), OpenReview — https://openreview.net/forum?id=y0wDflmpLk
- Continuous Thought Machines — Sakana AI 官方互動 demo/blog(同一研究) — https://pub.sakana.ai/ctm/
- Attention Is All You Need — https://arxiv.org/abs/1706.03762
- Scaling Laws for Neural Language Models(Kaplan et al.)— https://arxiv.org/abs/2001.08361
- Training Compute-Optimal Large Language Models(Chinchilla)— https://arxiv.org/abs/2203.15556
- On the Computational Complexity of Self-Attention — https://arxiv.org/abs/2209.04881
Top comments (0)