DEV Community

Manoir Yantai
Manoir Yantai

Posted on

AI 代理的记忆困境:从「记住」到「知道」

当你的 AI 代理(Agent)能记住你是谁、偏好什么,它已经解决了第一层问题——记忆。但真正让它产生工程价值的,是下一层:知识

记忆是「我见过」,知识是「我能用」。这是一个根本区别。

问题:Agent 的知识从哪来?

大多数 agent 框架的「记忆系统」只做一件事:存聊天记录、存用户偏好、存几个 key-value。这叫上下文缓存,不叫知识库。

你的 agent 读完一篇公众号文章能自动入库吗?看完一段抖音能提取关键信息?下载一本技术书能变成可查询的 skill?大概率不能——因为它只有记忆层,没有采集层。

解:记忆体 + 采集管线 = 知识闭环

把问题拆成三层:

采集层(40+ 工具) → 分析层(AI 处理) → 存储层(三层记忆)
Enter fullscreen mode Exit fullscreen mode

采集层负责从一切源头拉数据——网页、视频、文档、书籍、RSS。分析层做精炼:自动总结、提取关键词、事实核查。存储层分三档:Hot(memory tool 即时取)、Warm(Hindsight 向量检索)、Cold(gbrain 知识图谱)。

代码实战:采集一篇文章并自动入库

from knowledge_collector import collect_web

# 采集任意网页,自动提取正文、关键词,生成笔记
result = collect_web('https://arxiv.org/abs/2401.12345')

# 三样东西已落地:
print(result.note_path)    # 结构化 Markdown 笔记
print(result.gbrain_slug)  # 知识图谱节点 ID
# OneDrive 同步已触发(无需手动调用)
Enter fullscreen mode Exit fullscreen mode

这是最简单的用例。背后实际发生了:trafilatura 正文提取 → LLM 关键词抽取 → 笔记模板渲染 → gbrain 创建页面 → Hindsight 嵌入索引 → rclone 推云盘。全自动。

视频知识采集更难,但更值

视频是信息密度最高的来源之一。采集流程:

  1. yt-dlp 拉流 → Whisper ASR 转文字 → EasyOCR/PaddleOCR 关键帧文字识别
  2. LLM 综合画面+字幕做结构化摘要
  3. 入库 + 知识图谱链接

一句话就能触发整条链路:

python3 -c "from knowledge_collector import collect_video; collect_video('https://www.bilibili.com/video/BV1xx411c7mD')"
Enter fullscreen mode Exit fullscreen mode

三层召回:同一条知识,三种检索路径

层级 载体 延迟 精度
Hot Hermes Memory tool 纳秒级 精确键值
Warm Hindsight 向量库(10K 节点) 毫秒级 语义相似
Cold gbrain 知识图谱(11K 页) 秒级 关联推理

搜索时 FTS5 → Hindsight 语义 → gbrain 知识图三级回退,本地命中就不走网络。

踩过的坑

  • 443 错误:不用看排查教程——直接重试。临时网络波动比你想的常见。
  • 三层检索的回退阈值:FTS5 匹配 >0 就停,不继续向量搜索——节省大量 LLM token。
  • 书精炼不要一次跑 700 本:先用 book_cache_manager list 看索引,选 3-5 本跑管线验证输出质量,再批量。

结语

记忆是 agent 的基础设施,知识采集是让它真正有用的引擎。40 个采集工具不算多——每加一个来源,agent 就多一个信息维度。当你的 agent 能从网页、视频、公众号、技术书、微博中自动吸收知识并关联到已有信息时,它才真正开始「知道」自己在做什么。

而不是只「记得」你说过什么。

Top comments (0)