宁静致远

          新智元报道编辑：KingHZ【新智元导读】从「缓存蒸发」到「12倍成本爆炸」，Claude智商一降再降。

        Anthropic辩解「不是惩罚是架构耦合」，但数据不会说谎：2月高效缓存让用户爽翻，3月静默回退后人人喊贵。

        这场隐私与性能的拉锯战，只有用户是真正的输家？就在4月13日，一条推文在开发者群体中炸锅。

        开发者Can Vardar甩出一句：Claude Code居然因为你关闭遥测而惩罚你？

        关闭它，Anthropic就把缓存从1小时砍到5分钟，隐私让你多付12倍性能代价……我没看错吧？

         转发量瞬间破万。这不是Bug，这是Anthropic用隐私换性能的隐形惩罚。

        你以为关掉数据收集只是保护自己？错！Claude Code直接把你的长上下文会话打回原形。

        Pro用户5小时只剩2条prompt，月付200刀的Max订阅者1.5小时就把额度烧光。

        疯狂。太疯狂了。Claude一降再降！从「缓存蒸发」到「12倍成本爆炸」事实摆在眼前。

        开发者们发现，只要在环境变量里加一句DISABLE_TELEMETRY=1，Claude Code的prompt cache TTL就从1小时瞬间回退到5分钟。

        数据就在这里，缓存直接缩水了12倍。GitHub里，Claude Code用户贴出真实日志：开启telemetry时，ephemeral_1h_input_tokens轻松破3万；一关telemetry，1h直接归零，全走5m缓存。

        同一段代码，缓存miss率直接飙12倍。大上下文会话中，缓存就是命脉。

        当你启用提示词缓存发请求时，系统先检查：从你指定的缓存分隔点往前的提示词开头部分，是不是最近请求里已经被存过。

        如果命中缓存，直接调用现成版本，时间和成本瞬间砍掉大半。

        没命中？那就完整处理整个提示词，然后在生成回复那一刻，把开头部分塞进缓存。

        而缓存一旦过期，系统就得全量重建，写入成本是读取的12.5倍。

        5分钟的TTL意味着你稍微停下来想个思路、泡杯咖啡，回来就是一次全量重建。

        更狠的还在后面。另一位开发者Sean Swanson贴出了更扎实的证据。

        他分析了从2026年1月11日到4月11日的119,866次API调用日志，清晰地展示了缓存策略的变迁轨迹：2月，1小时TTL全面生效，缓存浪费率仅1.1%；3月6日前后，系统静默回退到5分钟TTL，浪费率飙升至25.9%。

        结果呢？同一会话里，cache_create操作频率暴增5-12倍。

        cache_create写成本更高，5m写1.25倍base input，1h写2倍，但频繁重建让总token消耗直接起飞。

        Pro用户哭了：以前一天轻松跑满，现在1.5小时就见底。

        Max计划200刀/月，修两个bug、写个计划，就把额度干到零。

        企业团队更惨。Hacker News上有人说，3月底后Claude性能「肉眼可见下滑」，长会话动不动就卡，token额度下降像开了闸的水。

        4月13日，国外科技媒体报道更直接：《Anthropic在削弱Claude吗？

        》Anthropic的辩护不是惩罚，是管道断了面对排山倒海的质疑，Anthropic的回应来自两个关键人物。

        Claude Code的创造者Boris Cherny亲自在回帖。

        他承认遥测关闭确实会导致experiment gates失效，使缓存回退到5分钟默认值。

        机制拆开看，其实就一句话：1小时缓存是「实验性」优化，通过客户端experiment gates推送。

        只有telemetry开着，gates才能拉取最新策略。

        但他强调这不是刻意的惩罚，而是架构设计中的耦合问题。

        Cherny同时解释了缓存策略的设计逻辑：Anthropic在后台持续测试不同的缓存策略组合，目标是优化整体的缓存命中率、Token消耗和延迟表现。

        你一关telemetry，客户端直接读默认值——5分钟。

        不是恶意，是「技术副作用」。5分钟缓存在某些场景下确实更经济——

        比如子智能体（subagent）调用，这类请求通常是一次性的，缓存很少被重复读取，用1小时TTL反而浪费了2倍的写入成本。

        不过，他也承认：「大量技能（skills）、多个Agent或后台自动化任务同时运行，token消耗确实大，特别是在使用大量插件时。」令人惊讶的是，受影响的用户数量相当大，Anthropic正在改进：(a) 优化UX，让用户更清楚地看到这些情况；(b) 更智能地截断、剪枝和调度非主任务，避免意外的token消耗。

        Anthropic另一位工程师、Bun运行时的创造者Jarred Sumner则回应了3月的TTL回退问题。

        他认为5分钟TTL对整体而言「更便宜而不是更贵」，因为「相当一部分Claude Code请求是一次性调用，缓存上下文只用一次就不再访问」。

        坦白讲，这个解释在技术层面说得通，但用户不买账。问题在于，Swanson的数据直接打了脸：2月份1小时TTL下的浪费率只有1.1%，如果大多数请求真的是一次性的，那2月应该出现大量写入浪费才对。

        真正的行业问题AI的Token计价是一个黑箱把视角拉远一点，这不仅仅是Anthropic一家公司的问题。

        目前，AI编码工具的按使用量计费纯粹是一种信任考验。

        开发者看不到计费表的跳动，无法审计每个请求的Token用量，无法验证缓存状态，无法确认应用了哪个定价层级，也无法检查高峰期倍数因子是否生效。

        与其他开发者付费使用的基础设施对比一下：AWS EC2：按秒计费，完整的实例可见性，CloudWatch指标，账单警报，成本分析工具Stripe：按交易计费，每笔费用都有日志记录且可审计，实时仪表盘Vercel：按调用计费，函数级指标，支出限额，自动警报Claude Code：按Token计费，无单次请求的用量明细，无缓存命中可见性，无支出警报，无实时成本跟踪这种信息不对称令人震惊。

        在这个价格区间内的所有其他开发者工具，都能让用户详细了解他们支付的费用。

        而AI编程助手给用户的，只是一个限额进度条和一声祈祷。

        这种不对称在平时有利于服务提供商，一旦出现问题，就会给用户带来毁灭性打击。

        AI计费没有第三方审计，没有Token用量报告的开源标准，也没有针对提示词经济学的云端成本分析工具。

        这不是一个计费模式，这是一场把别人的钱包绑在自己身上的信任盲跳。

        参考资料：https://x.com/icanvardar/status/2043652025339023845https://github.com/anthropics/claude-code/issues/45381https://x.com/bcherny/status/2043715713551212834https://platform.claude.com/docs/en/build-with-claude/prompt-caching#pricinghttps://www.theregister.com/2026/04/13/claude_code_cache_confusion/秒追ASI⭐点赞、转发、在看一键三连⭐点亮星标，锁定新智元极速推送！

🔗 原文链接：http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652692134&idx=2&sn=9a893eacffdb8af132c2d831f52c77e5&chksm=f09cab723e8c0fc529b79d4855b77147d89bd08650fefadebaebd1dde5743273b37c402cb465