TL;DR — 中文圈 LLM 中转站的火爆背后,其实是把 OpenAI / Anthropic API 原样转售。大多数中转站只解决"账号问题",不解决"模型选型问题" —— 结果是用户一边为了便宜走中转,一边把所有请求继续打给 Opus。我们的生产审计数据显示:3198 次 Opus 请求里,只有 17.6% 真的需要 Opus 级别的推理;剩下 80%+ 是 implement / refactor / debug 这种 V4-Flash($0.42/M)就能用 1/90 的价格搞定的任务。任务感知路由不是更便宜的 Opus,是不在该用 Sonnet 的地方烧 Opus。
"中转站"现在到底在卖什么
打开任何一个中文中转站的官网,你会看到这种文案:
- "稳定支持 Claude / GPT-4o / Gemini"
- "2 折价格,送 $5 试用"
- "支持 Cursor / Claude Code / Aider"
这些没有一个是在解决"路由"问题。它们在解决的是:
- 账号封禁问题(中国用户直连 OpenAI 难)
- 付费方式问题(国内信用卡)
- 批量便宜采购(代理商有量,拿到企业折扣再分销)
换句话说,中转站本质是 API 转售商。它的产品形态和 OpenRouter 完全一样:你来选模型、给 token、付钱,平台只是中间人。
中转站不会告诉你的事:
- 你 90% 的 Claude Code 请求其实不需要 Opus
- 你的 Cursor agent 在做 implement 的时候用 Sonnet 比用 Opus 质量差不了多少,但成本差 5 倍
- 你的 plan / debug 阶段 V4-Pro 已经做到 SWE-Bench 80.6%,跟 Opus 4.7 平均成绩基本打平,价格只有 1/10
中转站的商业模式决定了它不能告诉你这些——告诉了你就少打 80% 请求,它的流水就少了 80%。
灰产那一档怎么辨别
中文圈这类服务的"灰产"特征也很明确,几个信号一目了然:
| 信号 | 灰产中转站 | 正规路由服务 | |---|---|---| | 价格 | 显著低于 OpenAI 官方($/M token 远低于成本线) | 跟模型成本同级或略高 | | 计费透明度 | 只有充值,没有按请求 token 明细 | 每个请求的 input / output / cache_read 可查 | | 来源 key | 不说明,或含糊"代理 / 企业账户" | 明确说明 system key 来源 + 用户 BYOK | | 跑路风险 | 充值池模式,平台跑路用户钱拿不回来 | Stripe / Paddle 标准 SaaS,可申请退款 | | 错误诊断 | 出错只能等客服 | 完整 error trace + audit log |
如果一个服务比官方还便宜超过 30%,基本可以确定来源不正常。LLM 推理是真实算力成本,Anthropic 自己卖 Opus 也是 $15/$75 per M。任何宣称"全网最低"的中转站,要么用未授权代理 key(随时被封),要么是亏本拉新(资金出问题就跑)。
任务路由是另一个东西
我们做的是任务感知路由(task-aware routing)——不是转售 API,而是为每个请求选不同的模型。同一个 Claude Code 会话:
用户:"帮我设计一下这个分布式锁的方案"
→ phase = plan, 路由到 Opus 4.7 ($15 input)
用户:"写一个 Redis 实现的版本"
→ phase = implement, 路由到 DeepSeek V4-Pro ($1.74 input)
用户:"加几个单元测试"
→ phase = test, 路由到 V4-Flash ($0.14 input)
用户:"这个 race condition 怎么解决?"
→ phase = debug, 路由到 Opus 4.7 (debug 需要推理)
4 个请求,4 个模型,3 个不同价位。Opus 只在它真正擅长的事(plan / debug)上出现,其他时候被便宜 10-100 倍的模型替代。
这背后的实现细节涉及:
- Phase 检测器(根据用户消息 + 工具调用历史推断当前阶段)
- PHASE_MODEL_PREFERENCE(每个 phase 配一组按性价比排序的模型)
- Provider cooldown(检测到 Anthropic 上游故障 60s 内 5 次失败,5min 内自动跳过所有 Anthropic 模型)
- 跨语言支持(中文 phase 检测,实现 / 重构 / 调试 / 测试 / 设计 / 文档 等关键词)
一组真实生产数据
下面是我们 2026-05-07 的 24h 审计数据(过去 5000 次真实生产请求):
| 模型 | 请求数 | 占比 | 实际花费 | 占成本 | Cache 命中 | |---|---:|---:|---:|---:|---:| | claude-opus-4.7 | 3105 | 66% | $1030 | 87% | 96% | | gpt-5.5 | 436 | 9% | $107 | 9% | 95% | | claude-sonnet-4.6 | 954 | 20% | $41 | 3% | 97% | | deepseek-v4-pro | 78 | 1.6% | $6 | 0.5% | 92% | | deepseek-chat (V4-Flash) | 59 | 1% | $0.19 | 0.05% | 85% |
注意几件事:
- Opus 占了 87% 成本但只跑了 66% 请求 —— 说明大部分请求其实是过度配置
- 同样数量级的 Sonnet 请求只花 $41,Opus 花 $1030 —— 同样工作量,贵 25 倍
- V4-Flash 跑了 59 次只花 $0.19,如果把 Sonnet 那 954 次的一半转给 V4-Flash,省 $20+
- Cache 命中率 95%+——说明长会话的 cache 优化是真的省了大头
真实案例:一个非编码用户的账单
我们最近做的一次审计抓到一个真实数据:某个用户"Guoyu"(化名)用 Claude Code 客户端做的实际工作是写营销文案、邮件、周报、招聘 JD——不是写代码。
- 她的请求结构:200 个最近请求,99% 被识别成 debug phase(其实是工具历史里出现 "error" 字样误判)
- 路由结果:115 次 Opus 4.7,69 次 Sonnet 4.6
- 实际花费:1 个月 $1017
如果走中转站,她交的钱差不多——OpenAI 直连 Opus 也是这个价。但用任务路由 + 非编码识别后:
- 写文案 / 邮件 / 周报 → V4-Flash($0.42 综合 / M)
- 预期月账单:$30-50,降低 95%
这种用户不是中转站能拯救的——中转站只能让她便宜买到 Opus(可能省 30-50%),但路由能让她不用 Opus(省 95%)。本质区别在这里。
决定怎么选
| 你的场景 | 推荐 | |---|---| | 单个开发者,纯写代码,只用 Claude Code | 任务路由(直接省 70-90%) | | 团队混合用户(开发者 + 营销 + 运营) | 任务路由 + 非编码兜底(开发者省 70%,非编码省 95%) | | 只想要便宜的 Opus / GPT-5 token | 中转站(但要做好平台跑路的预案) | | 怕 OpenAI 封号但要稳定 | 正规中转(避免明显灰产) | | 想用国产模型(DeepSeek / Kimi / GLM)+ 美元卡难付费 | 中转站(因为国产模型直连一般也支持人民币) |
为什么我们公开这些数据
老实说,数据公开对我们没什么坏处反而有好处。中转站不公开 audit data 是因为他们的差异化只有"价格便宜"——一旦数据透明,你会发现他们打到 Anthropic / OpenAI 上游的成本和你直连其实差不多,他们赚的是"国内付款"的便利费。
我们的差异化在 routing 算法本身的价值:同样的请求,我们能用 1/10 的钱完成。这是数据公开越多越说服力越强的事。
接下来
如果你正在被 Claude Code / Cursor / Codex 的账单按死,先做一件事:导出最近 30 天账单,看 Opus 占比。
- 如果 Opus 占成本 > 50%:大概率你的工作里有一半根本不需要 Opus,任务路由能立刻砍 60%+
- 如果 Opus 占成本 < 30%:你已经在合理用模型了,中转站省下的那 20-30% 就值得考虑
- 如果你团队里有人不写代码也在用同一个 key:任务路由的"非编码兜底"能帮这部分用户省 90%+
CodeRouter 的免费试用送 1M token,Pro 套餐 $99/月送 30M token + 500K Opus,够大多数中等团队用整个月。试一周,如果账单没降到 30% 以下,我们退款。
这篇文章里所有的数据都来自 CodeRouter 自家生产环境的 audit 脚本。我们也在持续写技术复盘:Anthropic prompt cache 的语义陷阱让我们少算了 24% 成本、phase 检测在中文输入下 80% 漏判的修复过程、provider 级 cooldown 的设计 —— 后续会陆续上线英文 + 中文双版本,关注 coderouter.io/blog 即可。