中转站测评 不该是看谁家首页吹得响。一个 API 中转站到底能不能用,落到实处就几件事: 模型全不全、快不快、稳不稳、贵不贵、是不是真的。这篇给一套你自己就能跑的测评维度,不替任何一家站背书,只讲怎么判断。
下面的示例模型用 gpt-5.5、claude code opus 4.8,实际以你要测的站的 模型列表 为准。
维度一: 模型完整度
先看模型列表,不要看宣传图。要确认的是:
- 你要用的模型在不在,比如
gpt-5.5、gpt-5.4、claude-code-opus-4.8、claude-code-opus-4.7。 - 模型名是机器可读的、能直接复制进代码的,而不是只在海报上写个 "支持最新模型"。
- 同一个模型有没有清楚的版本号,避免你以为在用 4.8、其实路由到老版本。
判断方法很简单: 打开模型列表,复制一个模型名,留着下一步用 curl 实测。列表里没有、或者名字对不上的,这一项就不算过。
维度二: 延迟和稳定性
延迟分两块: 首字延迟(TTFB)和整体完成时间。最直接的测法是用 curl 计时:
curl -o /dev/null -s -w "连接 %{time_connect}s / 首字 %{time_starttransfer}s / 总计 %{time_total}s\n" \
https://api.wappkit.com/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer sk-your-token" \
-d '{"model":"gpt-5.5","messages":[{"role":"user","content":"ping"}]}'
同一条命令跑 5~10 次,看 time_starttransfer 稳不稳。偶尔抖动正常,每次都几秒起步就要留意。稳定性还要看不同时段: 高峰期和凌晨各测一轮,差距太大说明上游容量紧张。
维度三: 价格和计费透明度
价格不只是单价,更重要的是计费是否透明:
- 按什么计费(token / 请求 / 套餐),余额怎么扣。
- 失败的请求扣不扣费 —— 这一条最容易被忽略,也最容易踩坑。
- 有没有 免费测试额度 让你先跑通再付费。
- 充值方式是否覆盖你能用的(支付宝、微信、PayPal、国际卡)。
便宜但计费含糊,最后未必省钱。把计费规则问清楚,比盯着单价更实际。
维度四: 真伪检测
中转站最受质疑的就是 "模型是不是真的"。你想接 gpt-5.5,结果路由到一个便宜的小模型,这种情况确实存在。粗略的判断方法:
- 用同一个有标准答案的复杂提示词,分别问官方文档示例和这个中转端点,比较回答深度。
- 问模型一些只有新版本才答得好的问题,看水平是否匹配它声称的版本。
- 看返回里的
model字段是否和你请求的一致。
这只能粗判,不能完全证真。但如果回答质量明显配不上声称的模型,基本可以排除。更系统的做法见下一篇 中转站检测。
维度五: 错误信息和状态页
出问题不可怕,可怕的是出了问题你看不见。我会看这几项:
-
401(token 错)、404(路径/模型错)、429(限流)、余额不足这些错误能不能区分清楚。 - 有没有 状态页 说明上游异常。
- 一个含糊的
request failed,你根本不知道是 token 错、模型没了还是上游挂了 —— 这种站调试成本很高。
一个能跑的最小测评流程
把上面几条串起来,15 分钟就能给一个站打分:
- 打开模型列表,确认目标模型在 → 复制模型名。
- 用免费额度拿一个 token。
- curl 跑通一次,确认返回有
choices。 - 同一命令跑 10 次,记录首字延迟波动。
- 故意写错 token、写错模型名,看错误信息清不清楚。
- 翻一遍计费规则和状态页。
六步都过,再考虑长期用;卡在前三步的,直接换下一家。
小结
api中转站测评 说到底是一张检查清单: 模型完整度、延迟稳定性、价格透明度、真伪、错误可读性。五项里模型和计费是硬指标,延迟和错误信息决定你日常用着舒不舒服。
想自己跑一遍这套流程,可以先用 免费测试额度 测 gpt-5.5 或 claude code opus 4.8,再对照 模型列表 打分。
Top comments (0)