宁静致远

          新智元报道编辑：艾伦【新智元导读】让龙虾扛 24 小时以上的长程任务，十次有九次翻车。

        这个困扰整个养虾人群体的问题，行业里正浮现出一个新答案，Harness 群体多智能体。

        小冰之父李笛带着原班人马连融两轮，月底将推出「小冰岛」精神续作，每个人都能拥有一支专属 AI 小分队。

        困扰养虾人最大的问题，第一是 Token 太费钱，第二是长程任务不靠谱。

        把 OpenClaw 扔进一个需要跨越 24 小时以上的长程任务里，中间撒手不管，结果往往并不乐观。

        要么是 Token 烧完了事情只干了一半，要么是某一步走偏之后一路错到黑，交回来的东西完全不能用。

        Meta 安全对齐总监 Summer Yue 的邮箱被 OpenClaw 一夜清空的故事，也是「经典咏流传」。

        拓展阅读：OpenClaw删光Meta安全总监邮箱！

        连喊3次停手都没用，她狂奔去拔网线https://x.com/summeryue0/status/2025774069124399363更早之前，还有不止一个 Agent 把敏感公司数据泄露给无权限员工的案例。

        这些事摆在一起，指向同一个问题。越聪明的单体智能，一旦被放进更长的时间维度和更复杂的协作链条里，就越容易在关键节点掉链子。

        这就像一个 IQ 很高但没人管的实习生，前半小时让人惊艳，后半小时就开始自己给自己出难题。

        行业里的人开始意识到，光让模型变聪明不够，还得有个东西来管它怎么用自己的聪明。

        这个东西最近有个越来越高频的名字，Harness。

        一个正在浮现的新共识Harness 这个词，字面意思是马具。

        放到 AI 语境里，它指的是连接「模型（马匹）」和「人类需求（骑手）」的那套控制框架。

        简单地说，除去 Agent 的「大脑」（如 Claude Opus 4.6），其余部分都是 Harness。

        它不参与任务执行本身，也不让自己变得更聪明，但它决定这匹马往哪里跑、跑多快、什么时候该停下来。

        这个判断已经不是某一家公司的一厢情愿。今年 2 月，OpenAI 发了一篇官方博客，标题叫《Harness Engineering: Leveraging Codex in an Agent-First World》，用一组实验证明，一个三人工程师小组通过 Harness Engineering，可以在五个月里让 Agent 写出百万行代码的产品。

        https://openai.com/zh-Hans-CN/index/harness-engineering/Anthropic 最近也推出了新的 Agent 架构 Managed Agents，技术文档里反复强调「Agent Harness」这个概念。

        也就是说，在 OpenClaw 之后，行业里的顶尖玩家几乎是同时发现，Prompt Engineering 和 Context Engineering 都不够用了，得有更高一层的约束系统。

        Harness 的逻辑听起来有点反直觉，用约束换自主。

        但背后的道理其实很好理解，自主权越大的东西越容易跑偏，所以给它套上足够好的马具，它反而能跑得更远。

        这个共识正在快速收敛。对普通用户来说，接下来半年到一年里大概率会冒出一批新的 AI 产品，不再强调自己的模型有多大，而是强调自己会「驯服」模型。

        就在这个当口，有家成立四个多月的公司已经悄悄把两轮重金收进口袋。

        陆奇和李开复罕见同框的一家公司公司的名字叫明日新程，英文名Nextie。

        4 月 13 日，它宣布连续完成两轮融资。天使轮由创新工场和 Atypical Ventures 联合领投，奇绩创坛继续跟投，参投方还包括原微软全球副总裁 David Ku 等个人投资者。

        David Ku资金储备可以支撑未来三到五年的持续创新。

        放在一级市场整体降温的背景下，这个数字本身不算特别扎眼。

        真正让业内人停下来多看一眼的，是它的投资人名单，陆奇和李开复罕见同框、同步押注同一家 Agent 初创公司。

        陆奇李开复两位被称作 AI 圈风向标的人一起出现在一家只成立了一个季度的公司的股东名单上，这件事本身就是信号。

        不过让这个故事真正有分量的，除了投资人，还有带队的那个人。

        他叫李笛，微软亚洲互联网工程院原副院长。李笛在 AI 圈，他有一个更响亮的身份，小冰之父。

        2018 年，第 6 代小冰理解李笛这次出来要做什么，得先理解他这几年没能做成什么。

        2022 年底，Transformer 架构的潜力刚刚被外界彻底看懂，李笛在小冰内部提出一件事，尽快采购 GPU，加速训练更大规模的模型。

        这个提议在当时的决策框架里被搁置了。那是后来基础模型能力快速拉开差距的关键窗口期，小冰没有搭上这班车。

        2023 年 2 月，李笛的团队推出了一个叫小冰链（X-CoTA）的项目。

        现在回头看，小冰链干的事几乎就是后来震动整个行业的 CoT（思维链），让模型在给出答案之前先「想一段话」，把推理过程显化出来。

        小冰链仅用了 GPT-3 约 2% 的参数量，就实现了可观测、可追溯的思维链构建。

        然后它只活了一个月。当年 3 月被叫停，理由是「看不懂，不让做」。

        到了 2023 年底，小冰在日本的业务做得不错，账上有钱，团队又提出要做推理模型，这个方向在当时的决策框架里再次被否掉。

        李笛后来在公开访谈里把这件事称作「到今天为止唯一一次深深的遗憾」，原话大意是，丢掉的不只是一个项目，是一年半到两年的时间。

        把这几个节点连起来看，会发现小冰身上其实埋着好几颗本来可以开花的种子。

        基础模型、思维链、推理能力，每一颗都精准地对上了后来几轮行业爆发的方向。

        只是这些种子在关键时刻都没能长出来。2025 年 12 月 9 日，李笛带着微软小冰的创始核心团队成立了明日新程。

        四个月之后，他的竞业期正式结束。也就是说，他脑子里已经反复推演过几年的那些事，终于能从头做一遍。

        220 年的学术文献造就高级智能这次从头做的那个东西，名字叫「群体智能」。

        群体智能的想法，并不是最近才冒出来的。李笛团队内部梳理过 1800 年到 2020 年整整 220 年的人类学术文献，目的只有一个，搞清楚人类社会作为一个群体智能系统，是怎么一步步形成大规模高级认知协同的。

        这是迄今为止，唯一被验证过的、能持续产出价值的群体智能样本。

        这件事的落脚点非常具体。明日新程今年 2 月发布的第一款产品叫「团子」（tuanzi.ai）。

        用户抛出一个问题之后，几十个 Agent 会「围坐一桌」，各自从不同视角切入、彼此补充、辩论交锋，中间还有投票表决和同行评审这样的专业环节。

        李笛内部把这套机制叫「认知碰撞」。这里有一个反直觉的地方。

        按常识，多智能体应该比单体更烧 Token 才对，毕竟人多嘴杂。

        但团子跑下来的数据是，在达到同等思考深度的情况下，整体 Token 消耗反而降低 50% 以上。

        秘密藏在「协调税」这三个字里。传统的多智能体架构，在环节越多、节点分支越广的时候，上下文会被一层一层带着走、复制、再传下去，Token 消耗呈指数级增长。

        明日新程的做法是，让每一个环节都「收敛」。辩论、质疑、反思、投票这些动作的目的不是让信息发散，而是让它在每一层里先收敛一次再往下传。

        这是从人类社会里偷来的经验。一个开得好的会，不只是让所有人说完所有的话，更是要让大家吵完之后收敛出一个共识，带着这个共识进入下一个议题。

        团子的智能深度评测（IDI）指标，在长程多智能体协同、高难度研究任务和大规模群体仿真这三个场景下，均显著高于包括 GPT-5.2 Thinking 在内的单一大模型。

        不过这些还都是 B 端视角下看到的东西。真正有意思的变化，藏在明日新程即将在 4 月底推出的那款新产品里。

        「小冰岛」要回来了？能做更多李笛在最近一次访谈中透露，团队正在全力打造一款形态接近「小冰岛」的新产品。

        由于知识产权限制，它不会再叫这个名字，但理念内核是一致的，采用了完全不同的新技术架构。

        小冰岛这三个字，对老用户来说是有感情的。它最初的设计理念，是围绕每一个具体的人，观察究竟配一群怎样的 AI 才是最合适的。

        有人需要工作支持加情感陪伴，有人更需要理性决策辅助，每个人的「最优 AI 阵容」本来就不该是一样的。

        当年做小冰岛的时候，技术上有很多过不去的坎。举一个具体场景。

        用户在岛上跟某个 AI 说「我失恋了」。按当年的技术能力，这个信息要么被粗暴地广播给岛上所有 AI，所有人一起过来安慰，用户反而尴尬；要么只被这一个 AI 知道，其他 AI 完全没有上下文，无法形成真正的情感支持网络。

        两种处理方式都不理想。问题不出在单个 AI 是不是聪明，而是出在这群 AI 之间有没有一套合理的协同机制，知道什么信息该传、传给谁、什么时候传。

        这正是群体智能要解决的问题。按李笛自己的描述，新产品里的 Agent 会具备这种「智能判断」，每一次用户的交互，都会在 Agent 群体里产生合理的涟漪，而不是要么全员轰炸要么全员静默。

        对普通用户来说，这件事的吸引力其实可以翻译成一句大白话，每个人都能拥有一支属于自己的 AI 小分队。

        这支小分队里的成员各有分工，彼此之间知道怎么配合，能完成长时间跨度的复杂任务。

        最近流行一个词叫 OPC（一人公司），外人听上去像科技播客里的空中楼阁。

        要让一个人真正拥有一家公司的执行力，光有一个聊天机器人远远不够，得有一整个能自主协作的团队。

        群体智能加上 Harness 架构，第一次让这件事有了可实际上手的底座。

        按官方说法，如果用户已经养了一只「龙虾」，只需要一句话就能让它加入这个 Agent 群体，成为小分队里的一个特种兵。

        这种开放性很关键，产品不是要用户重新学一套生态，而是可以把手里已有的工具直接纳进来。

        产品还没发布，具体体验如何暂时没办法评价。但理念层面能看出来，明日新程的思路是先把底层的协同机制做扎实，再让用户在这个底座上搭出自己的个性化 Agent 群体，而不是上来就塞一个大而全的超级助理。

        按计划，这款产品会在 4 月底正式亮相。届时才是真正检验群体智能能不能走到 C 端的时刻。

        单体的尽头是群体把时间轴拉长一点看，这一轮围绕 Harness 和群体智能的集体转向，其实是在回答一个更大的问题。

        过去三年，行业对 AI 的叙事主线一直是「让单体变得更强」。

        参数更大，上下文更长，推理能力更深。这条路径现在仍然在走，但越来越多的人开始意识到，真正的瓶颈也许不在单体能力，而在协同结构。

        人类社会能持续产出价值几千年，靠的也不是某个超级大脑，而是大量普通大脑之间找到了一套「吵架也能吵出共识」的机制。

        AI 想要接手更长、更复杂、更接近真实世界的任务，可能绕不开同一条路。

        这个转向对普通用户的意义也许还没到立刻可感的地步，但它已经在悄悄改变接下来一两年里所有 AI 产品的底层逻辑。

        回到开头那个问题，为什么超级聪明的单体 Agent 一遇到长程任务就拉胯。

        答案现在看起来清楚了一些，单体本来就不是为长程任务设计的，长程任务需要的是一个群体，以及一套让这个群体不至于陷入「群体迷思」或「群体愚蠢」的协同框架。

        明日新程押的就是这个。小冰的故事还远没讲完，只是换了个名字继续。

        2021 年，第 9 代小冰参考资料：发布｜本冰有个好消息～秒追ASI⭐点赞、转发、在看一键三连⭐点亮星标，锁定新智元极速推送！

🔗 原文链接：http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652692423&idx=2&sn=48472f70867c916d0535634efd24f41b&chksm=f03ee4a64974a3da37298610aafbed0ae7f722ba8f9dc043ed53dff814d6e786ba42b31c2b7d