早上起来发现 Anthropic 发布了 Claude Opus 4.8。
看了下我自己的 AI lab 和 AI Voice 信息源,大多都喊 4.8 便宜了,但并非代际跃迁。
Anthropic 给出的的描述是:判断力更锐利,对自身进展更诚实,能够更长时间独立工作。
1Opus 4.8 已经在 claude.ai、Claude Platform 和 Zenmux上线,常规使用价格保持与 Opus 4.7 一致:每百万输入 token 5 美元,每百万输出 token 25 美元。
API 的模型 ID 是 claude-opus-4-8,默认支持 100 万 token 上下文窗口。
我又翻了翻 Claude Blog,感觉这次的主菜可能不是模型。
只看模型参数和 benchmark,Opus 4.8 就是一次“常规打磨”,但是如果真的比 4.7 甚至 4.6 更节省 Token,那也是一次巨大的进步,另外值得关注的是,Claude Code 推出了动态工作流。
这个功能目前还处在 research preview 阶段,面对复杂任务,Claude 可以进行动态规划,写出编排脚本,把任务拆成几十到几百个并行子 agent,在一个 session 里分别执行,再交叉验证结果,最后汇总给用户。
典型场景是大型代码迁移、跨代码库 bug 搜索、安全审计、框架替换、API 废弃迁移。
这些任务过去靠一个 agent 一步步推进,经常会遇到上下文膨胀、方向漂移、验证不足的问题。
动态工作流的思路,是把“一个模型努力想很久”变成“一组 agent 分头做事,再互相校验”。
有个典型案例:Anthropic 收购的开源框架 Bun 近期做了一次从 Zig 到 Rust 的迁移,使用动态工作流完成了数十万行 Rust 代码,已有测试套件 99.8% 通过,从首次提交到合并用了 11 天。
显然,Opus 4.8 可以更好地支持动态工作流任务。
2有意思的是,Anthropic 这次特别强调了 Opus 4.8 的诚实。
昨天我还在墨问的 Vibe Coding 社群里和大家说,Vibe 的时候不要 PUA AI,要平等正常的交流,否则 AI 会带来更多的不确定性,因为它会撒谎并抛出幻觉。
AI 常见的问题是,在不太会不太确定的时候表现得太会了。
写代码时,它可能声称修好了前端问题,但后端 API 压根就没有;做分析时,它说“已经验证”,可能只是推断;长任务推进到一半,它可能把半成品当成结论。
Opus 4.8 这次呢,更倾向于标注工作中的不确定性,也更少提出缺乏支撑的断言。
相比前代,它写出的代码缺陷率更低了。在 Chat 的场景里,幻觉是非常烦人的错误。
在企业任务、法律分析、金融文档、代码迁移和长期 agent 工作流里,过度自信会直接变成成本。
模型的诚实度,从这个角度看,也就变成生产力了。3当然了,市场反应并不一致。
一些用户会喜欢这个方向,因为 Opus 4.8 更适合长任务和复杂工作流。
Thariq 这类早期使用者对动态工作流评价很高,认为它用一种更温暖、更协作的方式释放了 Opus 4.8 的能力,甚至用了“上瘾”这个词。
另一边,AI 行业观察者 Bindu Reddy 认为,Opus 4.8 在 benchmark 上只是勉强超过 4.7,与 GPT 5.5 仍有差距。
考虑到最近两次发布,Anthropic 似乎遇到了一些技术瓶颈。
OpenAI 随着 GPT 5.6 即将发布,将拥有巨大的机会。
我的感觉是,大模型市场正在加速场景化。一个模型很难通吃所有场景。
前端、后端、知识工作、法律、金融、代码迁移、低价高频调用、浏览器 agent,各自需要不同的能力组合。
到了 2026 年,所谓“最强模型”这个说法越来越粗糙。
更实际的问题是:完成当前任务,用哪个模型更合适。4Opus 4.8 发布当天,Anthropic 宣布完成 650 亿美元 H 轮融资,投后估值达到 9650 亿美元。
官方称,本轮由 Altimeter Capital、Dragoneer、Greenoaks 和 Sequoia Capital 领投。
公司年化收入在本月早些时候已超过 470 亿美元。
显然,A 厂的叙事有模型和收入做支撑,资本还是愿意买单的。
至于 4.8,相对前代是“modest but tangible”的踏实改进。
与此同时,公司正在推进更高智能等级的 Mythos-class 模型,并表示会在未来几周让更广泛客户使用。
当模型能力差距逐渐缩小,平台和工具会成为新的护城河,也就是说,最终还会落到应用为王上。
谁能把模型封装成可靠的工作流,谁能让 agent 分工合作,谁能把复杂任务完成的更好,谁就会占据下一阶段的入口。
我之前因为 Opus 4.7 太耗 Token,退回到了 4.6,早上用 4.8 做了个 feature,感觉还不错。
Opus 4.8 发布,可惜主菜不是模型,A 厂估值达到惊人的 9650 亿美元