聊 AI Agent 架构的时候,大家最关注的是推理能力、工具调用、多步规划。这些确实重要。但有一个问题很少有人深入讨论:Agent 学到的知识,存在哪、怎么查、怎么沉淀?
大部分 AI Agent 的工作模式是「用完即忘」——会话结束时,上下文里的信息就消失了。长期记忆要么靠手工写死到提示词里,要么靠向量数据库塞一堆未加工的原文片段。
Knowledge-and-Memory-Management(下称 KMM)v0.0.2 的思路不一样。它不只是一个存储器,而是一条完整的知识消化管线:
采集层(40+ 工具) → 分析层(AI 处理) → 存储层(三层记忆) → 云盘同步
三层记忆:为什么不是只有一种存储
多数方案把所有东西塞进一个向量库完事。KMM 分了三个层次:
| 层 | 载体 | 特点 | 典型数据 |
|---|---|---|---|
| Hot | Memory tool | 当前会话上下文注入,< 20K 字符 | 用户偏好、当前任务状态 |
| Warm | Hindsight(10K+ 节点) | 语义向量检索,跨会话关联 | 项目决策、技术方案 |
| Cold | gbrain(11K+ 页) | 知识图谱,关键词+关系查询 | 笔记归档、文档摘要 |
三层不是互斥的——lightweight_recall.py 会同时查三者,按匹配度排序返回。本地没命中?自动落回 AnySearch 垂直搜索。
真正好用的是采集管线
40+ 采集工具不是堆数量。核心是覆盖了 AI Agent 自己主动「喂自己」的各类场景:
# 采集网页,自动提取重点并生成笔记
from knowledge_collector import collect_web
result = collect_web('https://example.com/article')
print(f'笔记已生成: {result.note_path}')
# 采集视频(自动字幕+OCR+ASR)
from knowledge_collector import collect_video
result = collect_video('https://www.youtube.com/watch?v=xxx')
print(f'字幕已提取: {len(result.subtitles)} 条')
注意 collect_video 走的是 yt-dlp → Whisper ASR → 关键帧 OCR 的完整链路,生成结构化笔记而不是丢个原始 MP4。
文档智能分析:SenseNova 三件套
处理 PDF、PPT、Word 时,用了三段式降级策略。SenseNova 引擎能做全量提取(含表格、图表、嵌入图片),回退链是 pdfplumber → pdftotext → pdfminer,不会一个引擎失败就空手而归:
# SenseNova PDF 分析(文字型/扫描型都支持)
python3 $AGENT_HOME/scripts/sensenova_dispatcher.py pdf report.pdf
# 书籍自动精炼为 Skill
python3 $AGENT_HOME/scripts/book_to_skill.py all book.pdf --name machine-learning
知识发现:被动等喂不如主动扫
最有意思的模块是 knowledge_discovery。每周日凌晨自动扫描 OneDrive 上的新笔记,检测到未录入 gbrain 的内容就自动建节点、加链接、跑孤页修复。
# 手动触发知识发现
python3 $AGENT_HOME/scripts/knowledge_discovery.py
# 三层召回搜索
python3 $AGENT_HOME/scripts/lightweight_recall.py \
--query "Agent 记忆系统设计" --limit 10
云盘同步不是附加功能
KMM 的云盘双向同步用 rclone 统一接口,覆盖 OneDrive/Google Drive/阿里云盘/百度网盘/Dropbox/Mega/pCloud 等 12+ 驱动。每 4 小时 cron 双向增量同步。
为什么要和云盘绑定?因为知识只有被备份的才是安全的。本地 gbrain 数据一坏,三层记忆崩掉两层。一条 rclone 同步规则解决这个问题。
适用场景
如果你正在做 AI Agent 相关的开发,并且遇到以下问题:
- 同一个问题反复问 LLM,因为历史知识没有被保存
- 采集的内容(网页、论文、视频)没有被结构化,只是当垃圾文件堆着
- 想给 Agent 加「主动学习」能力,但不知道管线怎么设计
- 笔记散落在本地和各种云盘里,Agent 无法统一检索
KMM 的管线是开箱可用的。安装只需要一条 bash install.sh,然后采集、检索、同步的自动化 cron 就走起来了。
github.com/mage0535/Knowledge-and-Memory-Management
Top comments (0)