想象一下:不用改一行代码,就能把 AI Agent 的 token 账单削减 92%。这就是 headroom —— 一个拥有 13,565 Stars 的上下文压缩库 —— 默默为懂行开发者做的事情。
在 2026 年,上下文窗口成本是所有 AI Agent 团队最大的预算项。大多数开发者接受 128K 上下文窗口作为固定成本。聪明的人则在压缩进入其中的所有内容——同时保持答案完整。
背景:为什么 Token 压缩是 2026 年 AI 开发的头号问题
每个 LLM 提供商按 token 定价。每个 Agent 框架都在泄漏上下文:工具输出淹没 prompt、RAG 分块堆积、会话历史无限增长。结果?团队用 40% 相关内容和 60% 噪音填满 128K 限制——然后为此付出全部代价。
headroom 的解决方案是坐在你的 Agent 和 LLM 之间。它将内容路由到正确的压缩器(JSON、AST 或文本),使用 CacheAligner 稳定前缀以提高 KV 缓存命中率,并通过 CCR 在本地存储原始内容,这样 LLM 可以在需要时按需检索精确上下文。它不是降低答案质量的压缩——而是保持信号、丢弃垃圾的智能路由。
隐藏用法 #1:CCR — 永不丢失数据的可逆压缩
大多数人的用法: 将 headroom 配置为单向压缩器,相信 LLM 会从更小的上下文中提取所需内容。当 LLM 需要精确原始内容——特定文件路径、精确错误信息——他们就束手无策了。
隐藏技巧: CCR(Content Cache + Retrieval)是 headroom 内置的可逆存储。原始内容永远不会被删除——它们存储在本地,LLM 在需要精确文本时调用 headroom_retrieve。
from headroom import compress, retrieve
messages = [
{"role": "user", "content": "修复 auth.py 中的 bug"},
{"role": "system", "content": open("auth.py").read()},
{"role": "tool", "content": "修改文件:auth.py,847 行"},
]
compressed = compress(messages, strategy="auto")
# 原始内容通过 CCR 存储 — LLM 可以调用 retrieve("auth.py:423") 获取精确行
# 无数据丢失,发送给 LLM 的 token 减少 60-95%
效果: 代码搜索工作负载减少 92% token(17,765 → 1,408 tokens,单次基准测试),GSM8K 精度零损失(+/- 0.000 偏差),TruthfulQA 提升 +0.030。LLM 仍然在需要时获得精确原始内容——只是并非每次都为此付费。
数据来源: headroom GitHub 13,565 Stars,860 Forks;基准数据表来自官方 README(复现命令:python -m headroom.evals suite --tier 1)
隐藏用法 #2:跨 Agent 记忆 — 在 Claude、Codex 和 Gemini 之间共享上下文
大多数人的用法: 每个 AI Agent(Claude Code、Codex、Cursor)使用孤立上下文运行。在项目中途切换 Agent 时,每个都从冷启动开始——无共享历史、无共享学习。
隐藏技巧: headroom 的 SharedContext 存储在 Agent 会话之间持久化。任何 Agent 都可以 put 学到的内容,任何 Agent 都可以 get 回来。
from headroom.memory import SharedContext
ctx = SharedContext()
# Claude Code 会话后学到项目模式
ctx.put("project_auth_pattern", "JWT + RS256,refresh token 存在 httpOnly cookie 中")
# 后续同一项目的 Codex 会话
auth_pattern = ctx.get("project_auth_pattern")
# Claude Code、Codex、Cursor、Gemini CLI — 全部共享同一存储
效果: 使用 headroom 跨 Agent 记忆的团队报告称,在 Agent 之间切换不再意味着重新解释项目上下文。存储在本地(无云依赖),跨 Agent 自动去重,重启后依然保留。
数据来源: headroom GitHub 13,565 Stars;Agent 兼容性列表支持 Claude Code、Codex、Cursor、Aider、Copilot CLI、OpenClaw
隐藏用法 #3:headroom learn — 自动挖掘失败会话并写入 CLAUDE.md 修正
大多数人的用法: 手动回顾失败的 Agent 会话,识别模式,然后手工更新 CLAUDE.md 或 AGENTS.md。这很繁琐、易出错,而且几乎从未被一致执行。
隐藏技巧: headroom learn 自动从 Agent 历史中挖掘失败会话,生成修正指令,直接写入项目 CLAUDE.md / AGENTS.md。
# 从失败会话中学习
$ headroom learn --session ./failed-sessions/incident-42/
# 将修正写入 CLAUDE.md:
# ## 避免这种模式
# Agent 尝试了 X,但代码库使用的是 Y。参见 auth.py:423。
效果: 每次失败都变成永久性学习,让未来的每个会话受益。几周后,CLAUDE.md 成为由 Agent 自身错误编写的活代码库手册——而不是手工编写。
数据来源: headroom README 功能列表:headroom learn — mines failed sessions, writes corrections to CLAUDE.md / AGENTS.md
隐藏用法 #4:MCP 服务器 — 无需代码修改即可为任何 MCP 客户端添加压缩
大多数人的用法: 接受 MCP 客户端(Claude Desktop、Cursor、其他 MCP 原生 Agent)有固定的上下文管理。要么为大上下文窗口付费,要么让重要的工具输出被截断。
隐藏技巧: headroom 作为 MCP 服务器提供三个工具:headroom_compress、headroom_retrieve、headroom_stats。在任何 MCP 客户端旁边安装它,在内容到达 LLM 之前拦截压缩。
# 将 headroom 安装为 MCP 服务器
$ headroom mcp install
# 注册工具:headroom_compress、headroom_retrieve、headroom_stats
# 任何 MCP 客户端现在都可以调用这些工具
# MCP 客户端调用 headroom_compress
{"tool": "headroom_compress", "arguments": {"content": large_tool_output, "strategy": "auto"}}
# 返回:压缩后版本,token 减少 60-95%
# 原始内容通过 CCR 存储以供检索
效果: 之前没有压缩选项的 MCP 原生 Agent(Claude Desktop、Cursor 等)现在可以在工具输出和 RAG 分块上获得 60-95% 的 token 减少——无需对 Agent 本身进行任何代码更改。
数据来源: headroom GitHub 13,565 Stars;README 列出的 MCP 工具:headroom_compress、headroom_retrieve、headroom_stats
隐藏用法 #5:GitHub Copilot CLI 订阅模式 — 在路由到 Copilot API 之前压缩
大多数人的用法: 使用 GitHub Copilot CLI 订阅计划,通过 GitHub 托管 API 按 token 费率付费。无法在请求到达 Copilot 端点之前拦截和压缩。
隐藏技巧: headroom wrap copilot --subscription 通过 headroom 本地代理路由 Copilot CLI 流量,在转发到 Copilot API 之前拦截请求并应用压缩——通过 macOS 上的 Keychain 进行账户特定端点解析。
# 通过 headroom 代理路由 Copilot CLI 订阅
$ headroom wrap copilot --subscription -- --model gpt-4o
# headroom 打印:COPILOT_PROVIDER_API_URL=...
# 所有请求现在首先经过 headroom 压缩
效果: 相同的 Copilot CLI 体验,但以减少 60-92% 的 token 到达 Copilot API。对于订阅计划用户,这直接降低了每次查询的有效成本,而无需改变工作流程。
数据来源: headroom README:GitHub Copilot CLI 订阅模式文档记录了 --subscription 标志;通过 CacheAligner 的 KV 缓存优化记录在架构部分
总结:5 个技巧
- CCR 可逆压缩 — 原始内容永不丢失,代码搜索减少 92% token,GSM8K 精度保持
-
跨 Agent 记忆 — 跨 Claude Code、Codex、Cursor、Gemini CLI 共享
SharedContext存储 -
headroom learn — 自动挖掘失败会话,将修正写入
CLAUDE.md -
MCP 服务器 — 任何 MCP 客户端使用
headroom_compress/retrieve/stats工具,token 减少 60-95% - Copilot CLI 订阅模式 — 在 Copilot API 流量到达之前压缩,减少 token 成本
过往文章:
你发现过头room或其他 AI 开发工具的隐藏用法吗? 在评论区分享——我每条都会看。
Top comments (0)