11.5亿Token消耗后的经验:如何优化模型使用与成本

#### 内容简介 作者自述在数月内烧掉约11.5亿代币(tokens),并分享了对tokens概念、计费与节流的实战见解。文章把token比作语言的乐高块,给出估算规则(英文约1 token≈4字符、100 token≈75词),并提醒JSON结构非常耗token。列出的主要省钱策略包括:选对模型(举例了Claude各型号及每百万token的定价)、利用批量处理得到50%折扣、启用提示词缓存(prompt caching)并把动态内容放在末尾、尽量减少生成的输出token(输出token单价约为输入的5倍),以及使用tokenizer工具检查提示词。特别警示Anthropic在2026年初将prompt cache的TTL从60分钟降为5分钟,这一变更可能使成本上升30–60%。作者还推荐OpenRouter等多后端接入方案并提示将结构化JSON换成纯文本或Markdown以降低成本。 #### 社区观点 1. 许多人嘲讽作者为啥要烧掉11.5亿代币来学这些基础知识,认为官方文档就有答案; 2. 也有人认为文章虽基本但有用,特别是关于Anthropic把prompt cache从60分钟降到5分钟的警告非常重要; 3. 有评论补充了很多节省token的工具和库推荐,例如 rtk、headroom、distill、memstack 等,称这些工具能显著节省代币(示例声称可节省约79%); 4. 一部分人指出应合理选模,例如用更便宜的模型执行大批量任务,或用Claude规划再交给廉价模型执行,从而大幅降本; 5. 有人强调JSON是token猪,建议尽量用纯文本或Markdown表格传结构化数据; 6. 也有观点认为作者做法太浪费但从实践中得到的教训和数据对社区还是有参考价值; 7. 还有人戏谑地把这类“代币最大化”行为当作玩笑,称这些是“菜鸟数据量”,并呼吁多做文档调研而不是盲目试错。 #### 内容导读 这篇内容的核心是教你如何理解并控制与大语言模型交互时的代币消耗及成本。要把握三点:第一,tokens就是语言的最小单元,字符、空格、标点都会计费,JSON等结构化格式会显著放大代币数;第二,成本控制依赖于模型选择、提示词缓存与输出长度三大杠杆——选合适的型号与批量策略,利用prompt caching并把可缓存的内容前置,把可变内容放后面,同时尽量让模型只返回最小必要信息(如ID或类别),通过代码完成映射,能大幅降本;第三,持续监控并审计:定期检查缓存命中率(尤其注意Anthropic把TTL从60分钟改为5分钟的影响)、使用tokenizer预估提示词大小、尝试用压缩/抽取工具如rtk等做上下文压缩,或用OpenRouter等多后端策略把重任务下放到更便宜的模型上。阅读这篇帖子的价值在于把零散的省钱技巧与风险点(例如缓存TTL变更、JSON代价)集中起来,给出可操作的优化方向。

评论