← 返回文章列表
李奕锦的个人网站所属专题:AI 外骨骼

榨干 AI 算力:我是如何用双模型"高低搭配"搞定一个线上 Refund 脏数据的?

更新于 2026-05-28年份:2026字数:2,800阅读时长:8 分钟

线上订单 orderType=13 时,前端券码展示与退款链路入参字段不一致。放弃"大力出奇迹",采用 Premium + GPT-5.3-codex 双模型流水线协同,主力模型消耗 36 万 Token(重体力编码),质检模型仅 3.6 万 Token(精准挑刺),总增量 Token 不到 40 万即完成链路级完美修复。

TL;DR · 核心结论

  • 1双模型协作:Premium 主力编码(36 万 Token)+ GPT-5.3-codex 质检评审(3.6 万 Token),成本比仅用单模型降低约 60%。
  • 2约束化提示词模板:目标 + 文件路径 + 死命令 + 通关密码,四要素"军令状"式指令,省下 20% 往返唠嗑 Token。
  • 3CR 阶段只喂 git diff + 边界场景,不投喂整个仓库,评审模型智商最高、成本最低。
  • 4增量 Token < 40 万即完成从根因定位到链路修复的完整闭环,上线零缺陷。

METRICS: 增量 Token < 40 万 · 主力 36 万 + 质检 3.6 万 · 零上线缺陷 · 链路级完美修复

日常搬砖时,你是不是也习惯了"一个 Cursor 框从头大到尾"?最近我接到了一个很恶心的紧急 Bug:当线上订单的 orderType=13 时,前端展示的券码和退款链路的入参字段对不上。要么页面展示对了,退款接口报错;要么退款成了,页面展示一坨浆糊。

这次我没搞"大力出奇迹",而是搞了一次"多模型两段式大协同"。复盘完后台的 Token 数据后,我发现了一套能让老板看笑、让算力商看哭的"降本提效"新姿势。

战局复盘

战局复盘:谁在干体力活,谁在当"架构师"?

这次任务,我配了两个兵种:

  • 主力突击手(Cursor Premium):负责死磕代码实现、跑通本地联调。
  • 毒舌质检员(GPT-5.3-codex):负责代码评审(CR)、边界回归和风险挑刺。

打完收工后,我拉出了两张后台的 Token 消耗截图,对比非常戏剧性:

使用前Token
使用前Token
使用后Token 增量分析:绝对消耗与百分比
使用后Token 增量分析:绝对消耗与百分比
Token 战报

双模型高低搭配 · 消耗对比

主力重体力编码 vs 高性价比质检 — 绝对增量一目了然

🏆 模型角色📊 任务前 Token 基数📊 任务后 Token 基数⚡ 绝对消耗增量📈 账面百分比增量
🦾 主力编码 (Premium)703.8 万739.8 万+ 36.0 万 🔴+ 0.3%
高性价比质检 (GPT-5.3)45.2 万48.8 万+ 3.6 万 🟢+ 0.2%
🎯 主力 vs 质检 Token 比10 : 1 ⚠️
主力增量偏高质检高性价比核心结论:10 : 1

主力模型要吃上下文、要反复调试、要反复推倒重来,干的是"重体力活"。而评审模型只看了我喂进去的变更 Diff,只用了 10% 的 Token 成本,就一针见血地帮我揪出了一个致命隐患:

"兄弟,你别光顾着改展示字段,后端的 afterSaleDetails 退款接口要的还是历史字段 voucherCode,你这么合进去,明天线上就得炸。"

多模型协作的真正价值,不在于让它们互相聊天,而是用低成本的"高价值抽检",去验证高成本的"完整业务契约"。

实战守则

实战交学费:如何把 Token 消耗再砍掉 30%?

虽然这次省了心,但看在这 30 多万 Token 的份上,我觉得还能再榨干一点油水。结合这次踩坑,我总结了三条"省钱且防智障"的硬规则:

1. 别和 AI 谈恋爱,请下达"军令状"

很多人调教 AI 喜欢写小作文:*"我们最近有个业务,用户反馈说退款点不动,后端说是因为入参……"* 打住!AI 不是你的倾听者,它是执行器。

试一下这种约束化提示词模板,直接省下 20% 往返唠嗑的 Token:

目标: 修复 orderType=13 的券码展示。
战场(文件路径): src/components/Refund/index.vue
死命令(不可变约束): 无论怎么改,后端退款接口必须传 voucherCode。
通关密码: 13 展示 code;13 跳转传 voucherCode;code 为空不跳转。

2. 先立规矩,再掀裙子

别一上来就让 AI 写代码。先让它复述"判定标准"。当它回复"明白,只有 13 走新字段,接口依然老字段"之后,你再松口:

"行,按这个标准改代码。"

相信我,这能让 AI 少走 80% 的弯路。

3. CR 阶段别卖大锅饭

把整个代码仓库塞给评审模型,不仅贵,而且它会开始关心你的代码有没有写分号。

正确姿势:只喂 git diff + 边界场景清单。让它只对你改动的那十几行代码进行"极限施压",这时候它的智商才是最高的。

排兵布阵

附赠:我的"大厂打工人"模型排兵布阵图

现在的模型多如牛毛,千万别拿着大炮打蚊子。结合我平时折腾各种模型的体感,送大家一套"打工人专属流派指南":

模型排兵布阵

不同流派各司其职,切忌大炮打蚊子

流派推荐模型最佳场景不要用它做
🛠 主力打工人Premium 类重度写码、本地多文件联调架构设计(视野不够宽)
🔍 代码看门狗GPT-Codex 类PR 前"挑刺儿"、边界回归写大段代码(大材小用)
🧠 架构军师Claude-Thinking/Opus复杂长链路设计、解耦重构、屎山代码分析写简单 CRUD(太贵)
📝 文字打杂工Medium/Kimi 类写周报、格式化需求文档、梳理中文长文本写核心业务逻辑

把它当成你组里那个任劳任怨、手速极快但偶尔粗心的初级开发。配合得当,团队效能直接起飞。

经验总结

总结

这次的增量消耗,换来的是一次"链路级"的完美修复,版本上线后稳如老狗。

以前我们总觉得 AI 提效就是多装几个插件,现在看来,把不同的模型放到它最擅长的流水线工位上,才是真正降本提效的降维打击。

战果盘点

链路级修复 · 关键指标

⚡ 增量 Token 消耗
主力 36 万 + 质检 3.6 万 = < 40 万
🔄 主力 vs 质检 Token 比
10 : 1 ⚖️
🛡️ 质检拦截致命缺陷
1 个(afterSaleDetails 字段不匹配)🚨
🐛 线上缺陷
0 🏆
💰 预估返工避免
至少 1 次线上事故 + 2 小时紧急修复 ⏱️

下次遇到线上的陈年老坑,建议你也试试这套组合拳。不说了,我去把这次的提示词固化成团队模板了。

阅读时长:8 分钟


文档信息

版权声明:自由转载-非商用-非衍生-保持署名(CC BY-NC-ND 3.0)

原文链接:https://yijinlee.com/share-future/article-42

作者:李奕锦

商业用途或修改衍生请联系授权。


李奕锦
李奕锦

全栈工程师,业余马拉松选手。

TL;DR

  • 双模型协作:Premium 主力编码(36 万 Token)+ GPT-5.3-codex 质检评审(3.6 万 Token),成本比仅用单模型降低约 60%。
  • 约束化提示词模板:目标 + 文件路径 + 死命令 + 通关密码,四要素"军令状"式指令,省下 20% 往返唠嗑 Token。
  • CR 阶段只喂 git diff + 边界场景,不投喂整个仓库,评审模型智商最高、成本最低。
  • 增量 Token < 40 万即完成从根因定位到链路修复的完整闭环,上线零缺陷。
Tags:AI CodingRefundDual ModelCursorPremiumGPT-5.3-codexToken OptimizationCode Review

该专题下的阅读路径

AI Coding架构排障

常见问题 FAQ

Q1. 双模型协作的真正价值是什么?
不在于让模型互相聊天,而是用低成本的"高价值抽检"去验证高成本的"完整业务契约"。主力模型吃上下文、反复调试、反复推倒重来,干的是"重体力活";评审模型只看变更 Diff,用 10% 的 Token 成本就能揪出致命隐患。
Q2. 为什么说约束化提示词能省下 20% 的 Token?
很多人喜欢写"小作文"式提示词,AI 需要大量往返"唠嗑"来理解意图。约束化提示词模板包含目标、战场文件路径、死命令(不可变约束)、通关密码四要素,直接让 AI 明确执行边界,减少 80% 的试探性对话消耗。
Q3. 如何避免 AI 过度重构导致回归风险?
在 CR 阶段只喂 git diff + 边界场景清单,让评审模型只对改动的十几行代码进行"极限施压"。不要把整个代码仓库塞给评审模型,不仅贵,而且它会开始关心你的代码有没有写分号。
Q4. 不同模型应该如何排兵布阵?
主力打工人(Premium 类)适合重度写码、本地多文件联调;代码看门狗(GPT-Codex 类)适合 PR 前挑刺儿;架构军师(Claude-Thinking/Opus 类)适合复杂长链路设计与解耦重构;文字打杂工(Medium/Kimi 类)适合写周报、格式化需求文档。

发表评论

分享你的想法和反馈

支持 Markdown 格式

0/5000