SDK vs API 网关:你的 AI Agent 真的需要中间代理吗?
部署 LLM 应用时,面临一个架构选择:是走 API 网关,还是直接用 SDK 在进程内解决?
这不是一个理论问题——它直接影响你的生产系统的延迟、成本和运维负担。
架构对比:两种方案的典型拓扑
API 网关方案(代理模式)
Agent 进程 → HTTP 请求 → LiteLLM/Portkey 网关 → LLM Provider
↑
额外网络跳转(50-200ms)
网关作为独立服务运行,所有 LLM 调用先经过网关,由网关负责路由、重试、限流。
嵌入式 SDK 方案(进程内模式)
Agent 进程(内嵌 NeuralBridge SDK)
→ 故障检测(22 µs)
→ 重试/降级/切换
→ 直接调用 LLM Provider
SDK 作为库嵌入到 Agent 进程中,直接在进程内完成自愈逻辑。
延迟成本的量化分析
网关方案增加延迟的三个来源:
| 延迟来源 | 典型值 | 说明 |
|---|---|---|
| DNS 解析 | 1-20ms | 每次请求可能触发 |
| TCP 连接 | 5-30ms | 长连接可复用但首次必建 |
| 网关处理 | 2-15ms | 路由匹配、速率计算 |
| 合计额外延迟 | 8-65ms P50 | 跨区域部署可达 200ms+ |
嵌入式 SDK 方案不需要这些:
- 诊断延迟 P50: 22 µs(来源:1M 样本基准测试)
- 熔断检查 P50: 0.4 µs
- 遥测记录吞吐: 177,582 条/秒
22 µs vs 65 ms 的诊断延迟差 ≈ 2955 倍。注意这是诊断延迟,不是完整调用延迟——但它说明了一个关键点:嵌入式的架构优势是量化的,不是概念性的。
运维成本对比
| 维度 | API 网关 | 嵌入式 SDK |
|---|---|---|
| 部署 | 独立服务,需要容器/主机 | pip install,零部署 |
| 扩容 | 需要和业务服务分开管理 | 跟随业务服务自动扩缩 |
| 可用性 | 网关本身需要高可用(至少 2 副本) | 无额外组件,无额外故障点 |
| 监控 | 需要独立的监控和告警体系 | 复用业务服务的监控 |
| 升级 | 灰度升级、兼容性测试 | 版本管理跟随项目 |
一个独立的 API 网关通常需要 0.5 FTE 来维护(来源:行业经验估计)。对于中小团队来说,这是直接的人力成本。
适用场景清单
选择 API 网关的场景
- 需要在组织层面统一管理所有 AI 调用(审计、合规、计费)
- 团队 > 10 人,有专业基础设施团队
- 需要集中化的 API Key 管理和权限控制
选择嵌入式 SDK 的场景
- 延迟敏感型应用(实时对话、流式输出)
- 中小团队(< 10 人),不想维护额外服务
- Agent 部署在边缘设备或受限环境
- 数据合规要求严格(数据不出进程)
混合架构的可能
这两种方案并非互斥。一个可行的架构是:
- 每个服务内嵌 SDK 处理本地的自愈和容灾
- SDK 将遥测数据上报到中央网关
- 中央网关只做聚合展示和配置下发,不参与请求路径
这样既避免了请求路径上的额外延迟,又保留了集中管理的优势。
NeuralBridge SDK 通过 3 种集成方式适配不同架构:直接替换 import(最少侵入)、HTTP 网关模式(兼容 OpenAI 协议)、侧车进程模式(零代码变更)。SDK 大小约 375 KB,仅依赖 httpx。
Top comments (0)