By 知平 — Jun 11, 2026

Token 省钱诀窍速查

每条 1-2 句话说明白，按优先级排序。

通用篇

精准提问，减少废话：直接说"目标+约束"，别用客套开场白；明确要求"只给代码，不要解释"，可大幅压缩输出 token。
主动限定输出范围：Output Token 比 Input 贵 5-6 倍，主动加上"不需要注释""不需要测试用例""只输出 diff"等约束，别让 AI 热心附赠多余内容。
开新对话隔离上下文：每个独立任务开新 Session，防止历史对话污染上下文、白白消耗 token。
精确 @ 文件/函数片段：只 @ 真正相关的文件或函数，不要全量引入整个项目目录。
善用 Plan 模式：复杂/不确定的任务先用 Plan 模式定方案，确认后再实施，避免改错返工浪费 token。
按需加载 Skill：Skills 描述常驻上下文会持续消耗 token，不常用场景封装成 Skill，用时才触发。
用 Rules 消灭废话：在 Project Rules 中配置输出约束（禁止 README、禁止复述需求、禁止填充词），据统计可降低 50% token 消耗。
合适模型干合适的活：复杂逻辑用高级模型（Opus/Sonnet），文件读取/格式化等简单任务用免费或低成本模型（GLM/DeepSeek）。

用 rtk 压缩命令输出：brew install rtk && rtk init -g，拦截 git status、cargo test 等输出，压缩后再喂给 AI，实测可省 70%-92% token。

/compact 压缩上下文 + -p 管道输入：上下文超 30% 就用 /compact 并带上"保留/丢弃"指令；用 cat xxx | claude -p 直接管道喂入，避免手动粘贴带进无关内容。
跨会话用 plan.md 保存进度：写完当前进度（已完成/卡点/TODO/相关文件），下次 @plan.md 恢复状态，不用重新解释背景。

关闭 Max Mode，多用 Auto 模式：200k tokens 上下文对大多数任务已足够；Max Mode 长上下文输入计价翻倍、输出贵 1.5 倍，且席位费 ¥280/月，性价比极低。

Output 贵，少废话；上下文贵，常清理；合适模型，干合适的活。