宁静致远

        Speakers：Penny、Cage 、Feihong、Siqi过去一个季度，模型的进步幅度几乎比过去一年还要剧烈。

        Anthropic 是这场加速最显性的推手，几乎以每月一个台阶的节奏把模型在高价值任务上的完成度持续推高，在昨天发布刚最新一代模型 Opus 4.7 后，又继续推出了 Claude Design。

        在这场变化里，一个值得关注的趋势是头部 AI labs 的战略开始迅速对齐， coding 从“重要场景之一”，变成几乎所有 AI labs 的 T0 级战略，市场的竞争重点也从争抢 chatbot DAU，转向争抢 Top 1% 用户，希望先拿下围绕知识工作者的“高价值任务”。

        Coding is eating SaaS, and the white-collar is next. 2025 年底，拾象在年度预测里写过一句很激进的话，“我们可能是最后一代白领”。

        虽然 2026 刚过去不到 1/3，但这句话似乎已成现实。

        本期内容是「拾象 AGI 备忘录」的第一期，拾象团队的四位同事从湾区和北京连线，聊 Coding AGI、聊 Harness、聊黄仁勋在 GTC 2026 上的两张图、聊 Multi-Agent、token / AI spending 的二八定律，也聊一个没法回避的哲学问题：如果 execution 都被 AI 吃掉了，人该做什么？

        我们希望从这个春天开始，将内部的思考和争论搬到麦克风前，以声音的形式更多的和大家交流。

        欢迎通过小宇宙订阅收听完整版，留下你们的建议和想听的话题。

        01.硅谷正在集体经历“Move 37 时刻”1. 2025 年的硅谷技术变化是偏线性的，甚至有人觉得停滞，但今年 3 月拾象团队在硅谷的体感则完全不一样。

        硅谷正在集体经历有点像当年围棋冠军遇到 AlphaGo 时的“move 37 时刻”。

        2. 几乎所有 AI 工程师和 AI 研究员都在过去 1-2 个月之内从写代码变成只做 review，很多人直接承认 Claude Code 比自己强，自己亲手写代码的比例从七八十降到 5% 以下，很多时候连代码编辑器都不打开。

        AI 研究员们判断“自己的会在两年内工作不保”，而工程师群体则判断自己在今年就可以被替代。

        3. 二级市场视角则更能量化这种变化：去年常见很多公司讲 AI 提效、 AI ROI 的说法还是 5% 到 20% 的 copilot 提效，今年则完全调换，80% 甚至更高比例的代码由 agent 来完成。

        4. 这种冲击一定会延到 B 端：当每个员工都能在公司内部搓一套 CRM、一套简单的审批流这时，那就会带来一个疑问：这软件本来就不应该付那么多钱？

        所以 AI 对 Enterprise SaaS 的冲击中，白领被替代，即 seat-based 需求收缩只是第一层，更严肃的第二层是企业软件的毛利被重估。

        5. 除了 Coding 加速，整个 AI research 的过程也在被加速，头部 AI labs 内部已经跑出一个半自动化甚至接近全自动化的实验流程，过去 AI 研究员们不愿意干的数据清洗、以及与 labeler 沟通的 dirty work 都开始由 AI 自己承担，而且这个过程是 self-improving 的闭环。

        6. Coding 的泛化方式大概率就是下一批白领任务的泛化方式。

        7. Claude Sonnet 3.5 之后 coding 就已经变成大模型一条关键主线，但最近一个季度的感受进一步强烈、甚至让模型公司的战略收敛是因为两件同时发生的突破，这两件事叠加在一起才让外部感受到的 AGI 感越来越明显：•去年 12 月 Claude Opus 4.5 发布：不管是 API 还是各个 coding 产品，能力突然不一样了，one-shot prompt 基本就能完成任务；• Claude Code 的 Harness 本身在提升：为 agent 搭建的工作环境越来越适合它自己发挥。

        8. Harness 更直白来讲就是给 agent 搭一套上班需要的 Infra，这个词虽然新，但把人与 agent 协作的本质说得非常贴切。

        OpenClaw 本身就是一套很好的 Harness，下一步会往操作系统方向走。

        02.高价值任务：所有 AI labs 的 T0 战略9. 2025 年我们观察 Labs 策略时的关键词是“分化”：Anthropic 像下一个微软深耕专业知识工作者，OpenAI 像下一个 Google 从 Chat 里挖高价值信息做广告变现。

        但今天回看，所有 Labs 的策略又回到了一个非常收敛的方向，就是高价值任务。

        10. Anthropic 的 run rate 从 2025 年底的约 90 亿美元飙到今年 4 月初几乎 300 亿美元，三个月翻 3 倍，OpenAI 的 ARR 从去年底的 200 亿美元涨到最近的 240 亿美元。

        11. “高价值任务”的关键在于端到端可以完成任务，不是“我能获得讯息”，而是“我真的能 take action”，但模型和 agent 真正开始 take actions 时，全球白领的工资池就会被重新分配。

        12. 法律、金融、Coding、程序员这些共识的高薪工种，共同点是高智力从业门槛、单位智能消耗高、单位产出价值也高。

        符合这个特征的任务都可以纳入高价值任务。13. 美国社会是一个梨形结构，中产占比极高，当他们真的被替代之后，社会结构会往哪个方向走，会是一件很不稳定的事。

        03.ToC / ToB 二分法是互联网时代的旧地图14. 过去一年大家习惯性地用 ToC 和 ToB 区分头部 Labs 的打法，例如： OpenAI 像 Google，更 to C，Anthropic 专注 to B，是下一个微软，但这个分类本身，可能就是互联网时代的一个惯性。

        “高价值任务”成为关键词本身就代表着 AI Labs 的叙事正在彻底摆脱互联网的旧框架。

        15. 用户量不再是价值的充分条件。Claude Code 的用户规模大约只有 ChatGPT 的 1 / 20，但两者的 ARR 当下已经基本持平，甚至有反超的趋势。

        （注：播客录制于 3 月下旬；截至 2026 年 4 月，Anthropic ARR 已达约 300 亿美元，超过 OpenAI 的约 250 亿美元）一个以工程师为核心用户、垂直扎进 Coding 的产品，用 5% 的用户量跑出可比收入在互联网时代是不成立的。

        16. 新时代的价值公式，从“DAU × ARPU”切换成了“Token 消耗 × 任务单价”。

        17. B 端本身的形态也在变。当白领被 AI 替代之后，B 端的人头规模会缩小，但单位价值和 adoption 速度都在变大。

        SaaS 时代按 seat 定价的逻辑，正在被按 outcome 定价替代；买方从“信息系统”的采购者，变成“劳动力”的雇主，本质上不是同一个 B 端市场。

        18. Agent 时代，C 和 B 的边界会越来越模糊。

        一个 founder 雇 100 个 agent 做开发，他既是 B 端的 API 调用者，也是 C 端的产品用户。

        未来评估一家 AI 公司真正有意义的维度，不再是它在 ToC 还是 ToB，而是它承载的是不是高价值任务、它分到的是 80% 的 token 还是 80% 的 spending？

        04.25% 的卡创造 80% 的收入19. GTC 上 Jensen 给出一个高价值任务的定义：由 agent 独立完成、长周期、吐出大量 token 最终交付结果的任务。

        过程很长、需要花很多精力才能实现的任务，大概率才是高价值任务。

        20. 在同一张卡的硬件约束下，速度和吞吐量是一组矛盾：优先优化吞吐量，速度会下降；优先优化速度，吞吐量就支持不了那么大的并发。

        过去的典型选择是用相对小的模型兼顾速度和吞吐，但代价是小模型需要做大量过程推理和试错才能得到一个好结果。

        21. 在这个 Vision 下，NVDA 其实抛出了一个路线 bet：未来高价值任务应该由最好的模型来做试错，而不是小模型。

        把试错的机会给最好的模型，让最好的模型同时输出大量 token。

        22. 这对硬件的挑战是最好的模型 latency 要越来越快，并发的要求也能支持相应的使用场景。

        老黄为这件事专门发了一颗新一代芯片 LPU（有的媒体叫 LPUX、LPGU）。

        23. NVDA 还给了一张定量拆分：把模型的使用场景分成四档，每档平均分配 25% 的卡。

        最高价值的那 25% 用的是 GPU 加 Grok LPU 的新方案，这 25% 的场景虽然只用了 1/4 的卡，却可能为客户创造 80% 的收入。

        最低价值的那 25% 基本是服务免费客户、承担引流意义、几乎不创造收入。

        卡的分配均匀，钱的分布却极度倾斜。24. 这张图的真正 implication 不在硬件本身，而在它对高价值任务做了一次物理层面的背书：只要高价值任务必须跑在最快的硬件加最好的模型上，顶尖模型就有结构性的定价能力；一旦平价模型追到够用阈值，这条定价权就会被压扁。

        05.“只投软件”的硅谷也开始投芯片了25. 过去两个月湾区 VC 有一个很“反常”的趋势：硅谷过去二三十年的钱大部分投在软件上，但最近却纷纷开始投芯片了。

        批量化地这么多机构同时投硬件，这件事至少十年难遇。

        26. 现实矛盾：普通 GPU rack 的优势是能装下最好的模型，但推理速度有限、并发不高，只能服务少量高精尖用户；换成小模型虽然又快又能并发，但任务简单。

        27. Cerebras 的思路是把芯片做得很大，NVDA 收购的 Grok 和 Cerebras 在设计思路上有一点相似，都用 SRAM，比现在用的 HBM 内存更快、吞吐量更大，适合承担推理时大量进出的中间过程数据。

        NVIDIA 看到这一点之后给出的方案是把 Grok 思路做成一个新芯片，跟 GPU rack 配合。

        28. 核心原因是进入 Agent 时代，尤其在 multi-agents 的背景下，我们需要 AI-native hardware”。

        Multi-agent 形态对硬件同时提出了三个维度的短板要求：• context 处理能力：需要把 context 拆到多个 agent 上以避免长上下文的 decay；• 单次推理速度：按老黄自己的说法要再推高 5 倍、10 倍；在指定时间里一个模型的思维链长度是有限的，速度不够，思考就不够全面，必须引入多个并行 agent；

        • 合作过程中的数据 throughput：一个任务要被分配到不同 agent、再汇总到下一个环节，数据传输量同样要求极高。

        06.80% 的 token 与 80% 的 spending 是两件事29. GTC 上 Jensen Huang 的思路是把高价值档位往上拉，那另一条线是把便宜模型往上够，这条线的代表是 OpenClaw，这是一条让便宜模型够到高价值任务上限的捷径。

        30. 国内龙虾热之后紧跟着出现了龙虾卸载热，不少人觉得用不好，是因为现有 Harness 还不够好，OpenClaw 更像一个实验、一个开源原型，离生产端仍有不小的 gap。

        31. OpenClaw 赢得市场关注在于一个创新的 ideas，而不是极致工程能力，真正把 Harness 做到生产级的，大概率还是围绕 Claude、OpenAI，也就是离模型更近的人，因为他们必须随着模型的进步持续迭代 Harness，才能既 harness 住模型又不被模型能力反向吞没。

        32. 在 OpenClaw 这套框架下，所谓的高价值任务是用相对平价的模型浪费、或者说消耗足够多的 token 去反复试错，把一些任务尽可能用 Harness 兜底、让它完成得比较好。

         这也解释了硅谷对 OpenClaw 没有 AI 社区那么兴奋，因为 AI Labs 或是资金充沛的 startups 直接用最好的模型就行；33. Multi-agent 的本质，是在单位时间内做足够多的并行计算，并且通过并行和交叉分工的方式把它组织起来，让系统的鲁棒性更强。

        这不是算法问题，更多是管理学问题，像大厂赛马。34. Multi-agents 里真正值钱的其实不是 execution agent，而是 planning agent，定角色、开 agent、派任务的那个核心角色。

        35. 高价值任务的“二八结构”在当下是成立是依赖于顶尖模型在 planner 这个位置上始终拉得开差距。

        一旦平价模型跨过够用阈值，顶尖模型在那个场景里就会被重新定价为平价模型，从“80% spending 区”滑向“80% token 区”。

         排版：夏悦涵延伸阅读硅谷火了一年的 AI Roll-Up，正在把“买公司”变成新的 AI 创业模式Physical Intelligence：机器人需要一个“个人电脑时刻”Juicebox：用 AI 把 HR 工作提效 2 倍，4 人团队实现 $10M ARRHarness is the New Dataset：模型智能提升的下一个关键方向Harness Engineering 为什么是 Agent 时代的“控制论”？

🔗 原文链接：http://mp.weixin.qq.com/s?__biz=Mzg2OTY0MDk0NQ==&mid=2247523665&idx=1&sn=b607c984c18bc1034b07686a4902166d&chksm=cf9c5a83fa04ed7a6e2217403f5b9089d294ebef8f96af23beb96988af67e9f9da5718900020