AI 智能体的知识基建：KMM v0.0.2 如何让 Agent 真正「会学」

#ai #automation #opensource

聊 AI Agent 架构的时候，大家最关注的是推理能力、工具调用、多步规划。这些确实重要。但有一个问题很少有人深入讨论：Agent 学到的知识，存在哪、怎么查、怎么沉淀？

大部分 AI Agent 的工作模式是「用完即忘」——会话结束时，上下文里的信息就消失了。长期记忆要么靠手工写死到提示词里，要么靠向量数据库塞一堆未加工的原文片段。

Knowledge-and-Memory-Management（下称 KMM）v0.0.2 的思路不一样。它不只是一个存储器，而是一条完整的知识消化管线：

采集层（40+ 工具） → 分析层（AI 处理） → 存储层（三层记忆） → 云盘同步

三层记忆：为什么不是只有一种存储

多数方案把所有东西塞进一个向量库完事。KMM 分了三个层次：

层	载体	特点	典型数据
Hot	Memory tool	当前会话上下文注入，< 20K 字符	用户偏好、当前任务状态
Warm	Hindsight（10K+ 节点）	语义向量检索，跨会话关联	项目决策、技术方案
Cold	gbrain（11K+ 页）	知识图谱，关键词+关系查询	笔记归档、文档摘要

三层不是互斥的——lightweight_recall.py 会同时查三者，按匹配度排序返回。本地没命中？自动落回 AnySearch 垂直搜索。

真正好用的是采集管线

40+ 采集工具不是堆数量。核心是覆盖了 AI Agent 自己主动「喂自己」的各类场景：

# 采集网页，自动提取重点并生成笔记
from knowledge_collector import collect_web
result = collect_web('https://example.com/article')
print(f'笔记已生成: {result.note_path}')

# 采集视频（自动字幕+OCR+ASR）
from knowledge_collector import collect_video
result = collect_video('https://www.youtube.com/watch?v=xxx')
print(f'字幕已提取: {len(result.subtitles)} 条')

注意 collect_video 走的是 yt-dlp → Whisper ASR → 关键帧 OCR 的完整链路，生成结构化笔记而不是丢个原始 MP4。

文档智能分析：SenseNova 三件套

处理 PDF、PPT、Word 时，用了三段式降级策略。SenseNova 引擎能做全量提取（含表格、图表、嵌入图片），回退链是 pdfplumber → pdftotext → pdfminer，不会一个引擎失败就空手而归：

# SenseNova PDF 分析（文字型/扫描型都支持）
python3 $AGENT_HOME/scripts/sensenova_dispatcher.py pdf report.pdf

# 书籍自动精炼为 Skill
python3 $AGENT_HOME/scripts/book_to_skill.py all book.pdf --name machine-learning

知识发现：被动等喂不如主动扫

最有意思的模块是 knowledge_discovery。每周日凌晨自动扫描 OneDrive 上的新笔记，检测到未录入 gbrain 的内容就自动建节点、加链接、跑孤页修复。

# 手动触发知识发现
python3 $AGENT_HOME/scripts/knowledge_discovery.py

# 三层召回搜索
python3 $AGENT_HOME/scripts/lightweight_recall.py \
  --query "Agent 记忆系统设计" --limit 10

云盘同步不是附加功能

KMM 的云盘双向同步用 rclone 统一接口，覆盖 OneDrive/Google Drive/阿里云盘/百度网盘/Dropbox/Mega/pCloud 等 12+ 驱动。每 4 小时 cron 双向增量同步。

为什么要和云盘绑定？因为知识只有被备份的才是安全的。本地 gbrain 数据一坏，三层记忆崩掉两层。一条 rclone 同步规则解决这个问题。

适用场景

如果你正在做 AI Agent 相关的开发，并且遇到以下问题：

同一个问题反复问 LLM，因为历史知识没有被保存
采集的内容（网页、论文、视频）没有被结构化，只是当垃圾文件堆着
想给 Agent 加「主动学习」能力，但不知道管线怎么设计
笔记散落在本地和各种云盘里，Agent 无法统一检索

KMM 的管线是开箱可用的。安装只需要一条 bash install.sh，然后采集、检索、同步的自动化 cron 就走起来了。

github.com/mage0535/Knowledge-and-Memory-Management

Top comments (1)

Mahmoud Ahmed • Jun 26

确实，大家都在关注推理和规划，但知识沉淀和高频调用的“长期基础设施成本”才是痛点。Agent 要做到真正「会学」，背后的大模型高频上下文（Context）和多步调用成本高得吓人。

作为独立开发者，我最近在优化我的 Agent 知识库架构时，为了省钱切换到了 Omixa Cloud。他们把主流大模型的 API 成本压缩到了官方的一半左右（比如 GPT-5.4 输入才 $1.09 / 1M tokens，Grok 4.1 Fast 推理才 $0.06），而且提供统一的 API Key 路由。

感觉在做这类长文本、高频知识沉淀的基础设施时，这种高性价比的 API 代理对大范围落地挺关键 ins。感谢大佬分享 KMM 的架构思考，支持开源！