上周在 GitHub 上闲逛,翻到一个叫 “agency-agents” 的仓库,开发者是 msitarzewski。一开始我还以为是又一个套壳的 agent 脚手架,点进去一看,发现这玩意儿跟市面上那些动不动就吹“下一代操作系统”的项目完全两个路子——它不做大而全的框架,而是死磕给 AI agent 加上真正的“自主权”。对,你没看错,不是那种写死链路的自动化脚本,而是让 agent 能自己看、自己判断、自己决定下一步该干啥。
说实话,现在圈子里 agent 的概念已经快被玩坏了。有的项目就是一个 curl 调 API 加个 if-else 判断,也敢叫“智能 agent”。而 agency-agents 这个项目,从底层设计上就在解决一个实际问题:当 agent 的初始指令执行完毕后,它能不能自己发现新问题、自己决定怎么解决、自己调用工具去执行?这个看起来“应该”是 agent 标配的能力,恰恰是眼下绝大多数框架的硬伤。
同赛道的玩家,差距在哪
聊 agency-agents 之前,先看看市面上主流的 agent 方案都在干啥。暂不提老牌专业级框架,就拿国内开发者熟悉的一些开源项目来说:
- LangChain 的 Agent 模块,本质是一个决策路由,它给你搭好了“思考-行动-观察”的循环,但调用的工具链、任务拆分的粒度,基本还是靠开发者手写 prompt 引导。它的优势在生态,不在“自主”。
- AutoGPT 曾经火遍全网,理念一直是“让 AI 自己规划”,但实际跑过的人都知道,它经常在一个死循环里转几十圈出不来, token 烧完还没干成正事。原因很简单:它的任务分解粒度太粗,且没有真正有效的自我纠错机制。
- CrewAI 做的是多 agent 协作,让不同的角色(研究员、写手、审核)组成一个“团队”。这个思路很巧妙,但每个 agent 的行为边界其实是写死的,它并不能在运行中根据外部反馈动态调整自己的行为策略。
agency-agents 跟它们最大的体感差异就两个字:闭环。它不是给 agent 画一条线让它走,而是画一个圈,让 agent 在这个圈里自己找路、自己修路、自己评估路好不好走。这个设计理念的差异,在实战中会直接拉开体验的代差。
一句话锁死核心定位
agency-agents 的定位可以概括为一句话:一个赋予 AI agent 自反馈、自修正、自演进能力的开源框架,让 agent 在任务执行中具备真正的闭环决策能力。
亮点在“自反馈”和“自演进”这两个词上。传统 agent 完成任务后,要么等着开发者写下一个指令,要么重新跑一遍流程。而 agency-agents 的能力体现在,它允许 agent 在每次行动后,把行动的结果回写到自己可以理解的状态空间中,然后基于这个状态变化,去判断下一步是接着干、换方向还是停下。这不是简单的“if error then retry”,而是一个持续的、可编程的决策循环。
核心能力拆解:每一条都得落在实锤上
从项目仓库的 README 和目录结构来看(注:本文所有功能描述仅来自公共可见仓库信息),agency-agents 的核心能力主要体现在这几个方面:
1. 基于“提案-评议”机制的决策线程
项目把 agent 的每一次“思考-行动”封装成一个 AgentProposal。每次 agent 想要调用工具、产生输出或者切换行为之前,必须先提出一个提案(包含当前状态、目标、计划执行的行动、预期的效果)。然后系统内的评议机制会对这个提案进行评估(是否合理、资源是否够用、是否有更优替代)。只有评议通过的提案才会被执行。这个机制在根源上堵死了 agent 反复在一个无效方案上打转的老毛病。
2. 提供工具箱但没有强绑定
仓库里附带的 tools 是 demo 级别的(比如计算器、时间读取这类),但它的关键不是工具有多少,而是“如何声明工具”。通过明确的接口定义,开发者可以把自己现有的工具服务包装成 agent 可理解的“能力单元”。这在架构设计上是对开发者友好的:你不用为了迁就框架去改造自己的系统。
3. 极简状态追踪
没有引入复杂的图数据库或外部长期记忆系统,agency-agents 使用平面化的日志结构来记录 agent 的每一步行动和结果。这意味着你可以很方便地把这个日志导出、分析和可视化,甚至在下一次运行时作为 prompt 的一部分喂给 agent,让它“记得”上次为什么失败。这种轻量级的解决方案对于中小规模项目非常实用。
4. 以 Python 库的方式提供
整个项目非常干净,就是一个可 pip install 的 Python 库。你不需要启动任何容器、配置任何外部中间件。只要你有一个 Python 运行环境和 OpenAI 兼容的 API key,就能在十分钟内跑起来。这种“零依赖”的思路,在现在动辄要求上百 MB 镜像的 agent 框架里,简直是一股清流。
客观写实的短板与避坑提示
说完了亮点,也得泼点冷水。就目前仓库的状态来看,agency-agents 有以下几个明显不适合上生产的地方:
1. 文档极度初级
README 就是几段话加一个快速启动示例,没有 tutorial、没有 API 参考、没有最佳实践。如果你试过照着它的示例代码改几行就翻车,那你可能会在这个项目上浪费不少时间去读源码。
2. 工具的泛用性不够
内置的 demo 工具基本就是教学用途。如果你想接入自己的搜索、数据库、Slack 通知等真实服务,你必须自己写工具封装。这其实不难,但项目没有提供工具开发的模板文件,对新手来说是个门槛。
3. 自治能力还在实验室阶段
虽然理念上很高明,但“自反馈-自修正”的稳定性在真实场景里依然存疑。简单任务(比如“帮我查一下今天北京的天气”)可能没问题,一旦任务边界模糊(比如“分析这个行业报告并整理出十个关键洞察”),agent 的提案环可能会膨胀得非常快,导致 token 用量失控。
4. 无社区维护痕迹
最后一次 commit 是在近期(以仓库公开页面时间为准),但整个项目基本看不出有持续维护的迹象,没有 issue 模板、没有 PR 流程、没有 release 版本。如果你打算把它引入正式项目,要做好独立啃代码、自己修 bug 的准备。
结合行业趋势的轻度研判
不画饼,只说眼前的事实。自从 OpenAI 发布 Function Calling、GPT-4 的 System Message 加长到 8K 以后,整个行业就意识到:agent 的能力上限,不取决于模型,而取决于“环”怎么设计。你给 agent 再强的模型,如果它不知道如何从失败中恢复、如何在不明确的指令下自组织,那最后出来的就是一个昂贵的复读机。
agency-agents 这种“先提案、再评议、后执行”的架构,实际上是朝着“agent 行为可审计、可解释、可干预”的方向迈出了一步。这个方向可能会成为未来一年多 agent 框架设计的主流理念。尤其是在企业级应用中,你不希望 agent 黑箱操作,出了事找不到原因。而提案-评议的机制,天然就为每一个决定留下了完整的“决策快照”。
另外,从开发者的角度来看,这种轻量级库才是最符合“开源”精神的——不给用户喂依赖、不绑架用户的技术栈、把选择权交给开发者。这种风格在 AI 开发圈里虽然小众,但往往是真正能落地的东西。
收尾:别急着收藏,先跑起来
如果你手头正好有一个需要 agent 完成非确定性决策任务的场景——比如日志异常初步分类、用户反馈的自动初筛、技术方案的自动生成与自我修订——不妨花一个下午把这个仓库 clone 下来,pip install 依赖,然后对着示例改一个你自己的 agent。跑通之后,你会立刻理解我上面说的“提案-评议”到底好在哪。
但如果你是想找一个“开箱即用、丢给老板看”的现成产品,那建议你还是看看别的成熟框架。agency-agents 目前更适合给那些愿意折腾、想理解 agent 底层工作机理的人当“解剖样本”来玩。
记住:在 AI agent 这条路上,造轮子和拆轮子的人,终究会比只会买轮子的人走得更远。
Top comments (0)