当你的 AI 代理(Agent)能记住你是谁、偏好什么,它已经解决了第一层问题——记忆。但真正让它产生工程价值的,是下一层:知识。
记忆是「我见过」,知识是「我能用」。这是一个根本区别。
问题:Agent 的知识从哪来?
大多数 agent 框架的「记忆系统」只做一件事:存聊天记录、存用户偏好、存几个 key-value。这叫上下文缓存,不叫知识库。
你的 agent 读完一篇公众号文章能自动入库吗?看完一段抖音能提取关键信息?下载一本技术书能变成可查询的 skill?大概率不能——因为它只有记忆层,没有采集层。
解:记忆体 + 采集管线 = 知识闭环
把问题拆成三层:
采集层(40+ 工具) → 分析层(AI 处理) → 存储层(三层记忆)
采集层负责从一切源头拉数据——网页、视频、文档、书籍、RSS。分析层做精炼:自动总结、提取关键词、事实核查。存储层分三档:Hot(memory tool 即时取)、Warm(Hindsight 向量检索)、Cold(gbrain 知识图谱)。
代码实战:采集一篇文章并自动入库
from knowledge_collector import collect_web
# 采集任意网页,自动提取正文、关键词,生成笔记
result = collect_web('https://arxiv.org/abs/2401.12345')
# 三样东西已落地:
print(result.note_path) # 结构化 Markdown 笔记
print(result.gbrain_slug) # 知识图谱节点 ID
# OneDrive 同步已触发(无需手动调用)
这是最简单的用例。背后实际发生了:trafilatura 正文提取 → LLM 关键词抽取 → 笔记模板渲染 → gbrain 创建页面 → Hindsight 嵌入索引 → rclone 推云盘。全自动。
视频知识采集更难,但更值
视频是信息密度最高的来源之一。采集流程:
- yt-dlp 拉流 → Whisper ASR 转文字 → EasyOCR/PaddleOCR 关键帧文字识别
- LLM 综合画面+字幕做结构化摘要
- 入库 + 知识图谱链接
一句话就能触发整条链路:
python3 -c "from knowledge_collector import collect_video; collect_video('https://www.bilibili.com/video/BV1xx411c7mD')"
三层召回:同一条知识,三种检索路径
| 层级 | 载体 | 延迟 | 精度 |
|---|---|---|---|
| Hot | Hermes Memory tool | 纳秒级 | 精确键值 |
| Warm | Hindsight 向量库(10K 节点) | 毫秒级 | 语义相似 |
| Cold | gbrain 知识图谱(11K 页) | 秒级 | 关联推理 |
搜索时 FTS5 → Hindsight 语义 → gbrain 知识图三级回退,本地命中就不走网络。
踩过的坑
- 443 错误:不用看排查教程——直接重试。临时网络波动比你想的常见。
- 三层检索的回退阈值:FTS5 匹配 >0 就停,不继续向量搜索——节省大量 LLM token。
-
书精炼不要一次跑 700 本:先用
book_cache_manager list看索引,选 3-5 本跑管线验证输出质量,再批量。
结语
记忆是 agent 的基础设施,知识采集是让它真正有用的引擎。40 个采集工具不算多——每加一个来源,agent 就多一个信息维度。当你的 agent 能从网页、视频、公众号、技术书、微博中自动吸收知识并关联到已有信息时,它才真正开始「知道」自己在做什么。
而不是只「记得」你说过什么。
Top comments (0)