TL;DR — 我们做的是"智能路由"产品:每个请求自动识别用途(写代码 / 调试 / 测试 / 写文档),路由到最划算的模型。理论上 Opus 只在真需要时出现,大部分请求应该走更便宜的国产模型。但上周一次审计发现:80%+ 的请求绕过了路由,客户端默认硬写 Opus,我们老老实实给了 Opus。修完之后 12 小时真实数据:每请求成本从 $0.19 降到 $0.122(-36%),Opus 花费占比从 80% 降到 45%,真实 savings 从 60% 升到 91%,月化省 $90K+。这是过程 + 我们学到的教训。
1. 我们发现的尴尬
我们卖的是"智能路由":每个请求识别它在做什么(规划 / 实现 / 调试 / 测试 / 写文档),自动路由到最划算的模型。比如规划阶段用 Opus,实现阶段用 V4-Pro,测试 / 文档用更便宜的模型。理论上,大部分日常编码请求根本不需要 Opus。
但上周做产品审计时,5000 条真实请求里:
看起来路由器在工作的请求: 15%
路由器完全没跑过的请求: 85%
为什么?用户的客户端(Claude Code / Cursor / Codex)默认硬写了 model="claude-opus-4-7" —— 我们老老实实把请求按客户的指示发给 Opus,智能路由完全跳过。
这是个产品级的尴尬:我们卖的核心价值,在大多数客户端默认配置下根本没机会发挥。
2. 我们的决定:Smart 套餐强制智能路由
修复方案的关键不是技术问题,是产品定位决定。两个选择:
A. 教育用户:发邮件让所有客户改配置,把 model 改成 "auto"。 B. 后端无视客户端配置,Smart 套餐一律走智能路由。
我们选了 B。理由很简单:Smart 路由就是产品本身。如果客户付了 Smart 套餐的钱,但客户端默认配置让他们绕过了路由,这是我们的责任,不是用户的责任。
但 B 有一个前提:给那些真的想自己选模型的用户一个出口。我们已经有 Direct 套餐(pay-as-you-go,你选模型,按 provider 标价 + 15% 付费),正好就是这个出口。
所以新的产品定位变得清晰:
- Smart 套餐(Starter / Solo / Pro / Studio / Team):订阅制,智能路由,客户端发什么模型都会被改成 auto
- Direct 套餐:按量付费,唯一支持显式选模型的套餐
3. 12 小时后的真实数据
修复后跑 12 小时,2094 个请求:
| Phase | 占比 | 主要路由到 | |---|---:|---| | debug | 41.7% | Opus 44% + Sonnet 22% + GPT-5.5 18% + V4-Pro 15% | | implement | 32.2% | V4-Flash 62% + V4-Pro 16% + GPT-5.4 12% | | test | 17.2% | V4-Flash 47% + Sonnet 34% + V4-Pro 19% | | plan | 5.1% | V4-Pro 77% + Sonnet 8% | | document | 2.5% | V4-Flash 94% | | small_edit | 0.9% | gpt-5-mini 100% |
每个阶段都路由到了性价比最优的模型组合。Opus 只在真正需要推理深度的 debug 阶段还是首选,其他阶段都让位给了更便宜的模型。
4. 成本数字
12 小时实际花费: $254.89
12 小时如果全用 Opus: $2,819.63
真实节省: 91.0%
按这个节奏跑全月:
- 实际成本约 $15K/月
- 全 Opus 成本约 $169K/月
- 每月省 $154K
跟我们修复之前对比:
- 修复前 12h 折算约 $1,780
- 修复后 12h:$254
- 每 12 小时省 $1,500+,月化省 $90K+
5. 三个反直觉发现
A. 规划阶段不需要 Opus
我们一直假设规划(plan)阶段必须 Opus 才扛得住推理深度。实测 12 小时内 107 个 plan 请求,76.6% 路由到了 V4-Pro,Opus 0%。
原因很简单:V4-Pro 和 Opus 在规划任务的能力打分都是顶档(5/5),但 V4-Pro 只有 Opus 1/10 的价格。从用户反馈看,没人说质量回归。
结论:Opus 在规划上的"必要性"是我们的假设,不是事实。
B. 一个便宜模型扛了 32% 流量,只花 $2
V4-Flash(DeepSeek 的 flash 版)一个人在 12 小时里处理了 659 个请求,总成本 $2.13。同样数量如果都走 Opus,会是 $300+。
它在中文输入 + 长上下文场景下表现意外地好,98% 的 cache 命中率让 token 成本几乎可以忽略。
C. 大部分"路由问题"其实是"产品配置问题"
我们花了大力气改路由算法,加了中文识别、tool 调用推断、多轮会话默认值等等。但真正决定数据从 60% savings 跳到 91% 的不是算法,是让大部分流量真正进入路由 pipeline(强制 auto)+ 给客户端默认配置一个体面的兜底(unknown 阶段也默认走便宜的实现模型)。
算法本来就够用,问题是大部分请求没机会经过它。
6. 我们学到了什么
- 产品默认行为 > 算法精度:再聪明的算法,客户端默认配置绕过它就等于不存在
- 必须给"我真的需要"的用户一个出口:Smart 强制 auto,Direct 套餐就是显式选模型的避风港
- 公开数据是最强的护城河:大多数 LLM 转售服务不公开真实数据,因为他们的差异化只有"价格便宜"。我们的差异化是路由算法本身的价值,数据透明只会让说服力更强
7. 这意味着什么(给读者)
如果你的团队在用 Cursor / Claude Code / Codex,而且月账单超过 $1000,大概率你也踩了同样的坑 —— 所有请求都被默认配置打到了 Opus 或 GPT-5.5。
检查方法:导出最近 30 天账单,看 Opus(或 GPT-5.5 / GPT-5.4)的花费占比。如果超过 60%,而你们的工作不是"全员架构师",那超过的部分大概率本应用更便宜的模型完成。
CodeRouter 给免费 1M tokens 试用,Pro 套餐 $99/月送 30M tokens + 500K Opus 配额,够中等团队用整月。试一周,如果账单没降到原来 30% 以下,我们全额退款。
所有数据都来自我们自家生产环境的真实审计。诚实复盘比营销文章更有说服力,我们坚持这个风格。