3句hello就限额，你的Claude Code额度去哪了？一个横跨28天的缓存Bug，和一份让你「省着点用」的官方回应

4-17%。这是过去一个月里，Claude Code 的 prompt cache 读取率。正常水平是 97-99%。

这意味着，当你恢复一个之前的会话时，Claude Code 没有复用之前已经处理过的上下文，而是每次都从头处理全部内容，消耗的额度是正常情况的 10 到 20 倍。你以为自己在延续一段对话，实际上每次都在重新开始一段全新的、全价的对话。

这个数字来自独立开发者 ArkNill 的代理监控实测。他通过设置透明代理，记录了 Claude Code 与 Anthropic API 之间的每一次请求，发现了至少两个客户端缓存 bug 导致 API 服务器无法匹配已缓存的对话前缀，被迫每轮都做完整的 token 重建。

上图展示了三个阶段的缓存读取率对比。v2.1.69 至 v2.1.89 期间（即 Bug 存在期），standalone 版本的缓存读取率仅有 4-17%。v2.1.90 修复了其中一个关键 bug 后，冷启动缓存读取率回到 47-99.7%。到 v2.1.91，稳定运行下的缓存读取率恢复到 97-99%。

值得注意的是图表中的一个细节：v2.1.90 的范围跨度很大（47% 到 99.7%），这是因为会话刚恢复时仍需「预热」缓存，前几轮的命中率偏低，但很快回到正常水平。而在 Bug 版本中，这个预热永远不会发生——缓存读取永远停留在系统提示词的 14,500 个 token 上，所有对话历史每次都按全价计费。

28 天，20 个版本

这个 bug 不是某次更新引入、下次更新修复的那种。据 npm registry 的发布记录，引入 bug 的 v2.1.69 发布于 3 月 4 日，修复 bug 的 v2.1.90 发布于 4 月 1 日。中间隔了 28 天，横跨 20 个版本。

时间线揭示了一个耐人寻味的细节。3 月 4 日 bug 引入后，用户并没有立刻大规模投诉。直到 3 月 23 日，投诉才集中爆发，中间隔了将近三周。原因是，据 GitHub issue #41930 的梳理，3 月 13 日至 28 日 Anthropic 曾上线 2 倍额度促销（off-peak 时段翻倍），这在客观上掩盖了 bug 的影响。促销结束后，缓存 bug 的消耗回到正常计费基线，用户的额度瞬间「蒸发」。

Anthropic 的回应来得并不快。3 月 26 日，也就是用户投诉爆发三天后，工程师 Thariq Shihipar 在个人 X 账号上宣布，高峰时段（工作日 5am-11am PT）的限额已收紧。3 月 30 日，Anthropic 在 Reddit 上承认「用户触达限额的速度远超预期」，称已列为团队最高优先级。直到 4 月 1 日，团队成员 Lydia Hallie 才发布了正式的调查结论。

整个过程中，Anthropic 没有发布任何博客文章、没有发送邮件通知、没有更新状态页。所有官方沟通仅通过工程师的个人社交媒体帖子和少数 Reddit 评论完成。

你付了多少钱，能用多久？

GitHub issue #41930 汇集了数百条用户报告。最极端的案例是一位 Max 20x 订阅用户（$200/月），他的 5 小时滚动窗口在 19 分钟内就完全耗尽。Max 5x 用户（$100/月）报告 5 小时窗口在 90 分钟内用完。据 The Letter Two 报道，还有用户称一条简单的「hello」就消耗了 13% 的会话配额。一位 Pro 用户（$20/月）在 Discord 上说，他的额度「每周一就用完了，周六才重置」，30 天里只有 12 天能正常使用。

据 ArkNill 的基准测试，在 bug 版本 v2.1.89 上，Max 20x 计划的 100% 配额在约 70 分钟内就会耗尽。他还测算了单次 --resume 操作对一个 500K token 上下文会话的额度成本，约 $0.15，因为系统会完整重放整个上下文。

「你拿的方式不对」

Lydia Hallie 的调查结论确认了两点，一是高峰时段限额确实已收紧，二是 100 万 token 上下文的会话消耗增大。她称团队修复了一些 bug，但强调「没有任何一个 bug 导致了多收费」。

随后她给出了四条省量建议：
1. 用 Sonnet 4.6 而非 Opus（Opus 消耗速度约为两倍）；

2. 不需要深度推理时降低推理强度或关闭 extended thinking；

3. 闲置超过一小时的长会话不要恢复，重新开一个；

4. 设置环境变量 CLAUDE_CODE_AUTO_COMPACT_WINDOW=200000 限制上下文窗口大小。

没有提及任何形式的限额重置或补偿。

AI 播客主持人 Alex Volkov 将这份回应概括为「你拿的方式不对」（You're holding it wrong），指出 Anthropic 自己把 100 万 token 上下文设为默认、把 Opus 作为旗舰模型推广、把 extended thinking 作为卖点，现在却建议付费用户不要使用这些功能。

「没有多收费」的说法也与 Claude Code 自己的更新记录存在张力。就在 Lydia 发布回应的前一天，v2.1.90 修复了一个自 v2.1.69 起存在的缓存回归 bug：使用 --resume 恢复会话时，本应命中缓存的请求会触发完整的 prompt cache miss，按全价计费。Lydia 的回应中没有提及这个已确认的计费异常。

作为对照，OpenAI 的 Codex 此前也出现过类似的额度异常消耗问题。OpenAI 的做法是重置用户配额、补发 credits，并在 3 月宣布移除 Codex 的使用上限。Anthropic 的做法是建议用户降级模型、关闭功能、限制上下文，且将责任归因于用户的使用方式。

Anthropic 卖的是「最强模型 + 最大上下文 + 最高推理能力」的订阅，收的是每月 20 到 200 美元的费用。一个横跨 28 天的缓存 bug 让付费用户的额度以 10-20 倍的速度蒸发，官方回应是让你省着点用。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

3句hello就限额，你的Claude Code额度去哪了？一个横跨28天的缓存Bug，和一份让你「省着点用」的官方回应

28 天，20 个版本

你付了多少钱，能用多久？

「你拿的方式不对」

律动BlockBeats的精选文章

目录

相关文章