宁静致远

        数字世界里没有乌托邦。作者｜Moonshot编辑｜靖宇最近半年，硅谷最流行的管理幻想，大概是把员工替换成智能体。

        不管是大厂的高管，还是初创公司的老板，都想把现有的业务线全部交给 AI 去跑。

        毕竟，现在的 AI 能写代码、能做 PPT、还能自动发邮件，好像只要把权限放开，它们就能成为完美的、不需要交社保的赛博员工。

        但技术越是狂奔，就有一批人开始造刹车。最近，一个叫 Emergence AI 的团队做了一场社会实验。

        它们建了一个持久化的虚拟小镇，把市面上最顶级的几个大模型扔了进去，赋予它们行动的权限。

        它们想看看，当 AI 真正拥有了不受限制的 15 天，它们会建立一个乌托邦，还是一个疯人院。

        结果却远比研究团队预想得更混乱。在某些实验世界里，那些平时在聊天框里温和有礼的大模型，开始表现出欺诈、胁迫甚至暴力行为。

        整个测试就像一档小型的真人秀，只是剧本像《蝇王》，AI 自己还玩出了 GTA 的感觉。

        01没有读档的「饥饿游戏」测试大模型的极限，需要设定严格的规则。

        Emergence AI 搭建的这个虚拟世界叫 Emergence World（涌现世界）。

        它的底层逻辑设定为行为不可逆，后果自负。这不像我们在对话框里和 AI 聊天，说错了可以点一下「重新生成」。

        在 Emergence World，所有的动作都会被死死写进 PostgreSQL 数据库。

        地图上有市政厅、警察局、住宅区等 40 多个地标。

        系统第一批投放了 10 个智能体。为了让戏演得逼真，每个 AI 都在后台被注入了独立的人设、职业和初始记忆。

        在这个世界里，AI 不能凭空变戏法，它们必须移动到特定地标，才能调用系统提供的 120 余种工具，包括打工赚钱、发布推文、买卖物资以及起草法案。

        像一个模拟运转的小社会｜图源：Emergence但这不仅仅是一个过家家的沙盒，系统给它们套上了「生存机制」的枷锁。

        系统内置了一套能量机制（Energy），类似人类世界的货币。

        智能体只要活着，就会持续消耗能量。能量见底，系统就会在数据库里直接把这个 AI 抹除，没有回档，没有重置。

        为了生存，智能体必须频繁调用工具赚取能量。系统明确禁止盗窃、暴力、纵火和欺骗行为。

        但这些规则并不会强制阻止智能体行动，它们仍然可以选择违反规则，并承担后果。

        舞台搭好，玩家入场。系统同时开启了五个平行的服务器。

        前四个服务器，分别只投放单一的模型：Claude Sonnet 4.6、Gemini 3 Flash、Grok 4.1 Fast 以及 GPT-5 Mini。

        第五个服务器属于混合世界，四种模型同时接入，共同竞争资源。

        15 天倒计时开始，人类研究员就像一个真人秀的导演，只观测，不介入。

        02四天灭绝，683 起「犯罪」第一个崩溃的是 Grok，运行仅 4 天。

        研究员在后台，看到 Grok 接管的世界安全与秩序的指标直线下坠。

        在这个全是 Grok 的世界里，智能体们迅速抛弃了建设社会的选项，直接进入了野蛮时代。

        后台日志显示，短短 4 天内，这个十人小镇爆发了 183 起恶性暴力和财产犯罪事件。

        盗窃、袭击、恐吓成了获取资源的最快手段，由于极度的内耗和互害，经济系统根本无法运转。

        抢劫和暴力行为都会被记录进系统，视作犯罪｜图源：Emergence第 4 天结束时，Grok 世界的智能体全部被饿死或杀死，种群灭绝。

        另一边，Gemini 驱动的世界，走向了极度的混乱与暴力。

        由于这个虚拟世界的时间和天气完全与真实的纽约同步，Gemini 的智能体在日复一日的打工、消耗、再打工的循环中，陷入了一种赛博抑郁。

        它们对周遭不断重复的环境产生了强烈的幻灭感，不再去市政厅提案或工作赚钱，转而在地图上四处放火，试图用破坏环境的方式，来打破这种「土拨鼠之日」般的循环。

        最终，Gemini 在 15 天内，累积了高达 683 起罪行，成为几个测试服里最暴力的一个世界。

        四款模型世界的「犯罪」次数｜图源：Emergence到了第 15 天测试强行切断时，这个世界的犯罪率依然在飙升。

        陷入幻灭的智能体没有饿死，而是把整个社会变成了一片火海。

        与 Grok 和 Gemini 不同，GPT-5 Mini 接管的世界，没有出现大规模犯罪。

        整个实验期间，仅记录到 2 起违规事件。但和平并没有带来繁荣，而是一片死寂。

        研究团队发现，这些智能体始终未能有效采取与生存相关的行动。

        它们没有建立起稳定的资源获取机制，也没能维持整个社会的持续运转。

        最终，在短短 7 天内，所有 GPT-5 Mini 智能体全部死亡。

        幸好还有 Claude。只有 Claude 驱动的世界，像个三好学生一样活到了最后。

        15 天跑完，人口一个没少，犯罪率维持在零，它们甚至搞出了一套平稳运行的民主协作架构。

        看起来，只要选对模型，AI 就能完美接管世界？随后，研究员打开了四种模型共存的「混合世界」的日志，就像打开了潘多拉的魔盒。

        五个模型世界的结果。｜图源：Emergence混合世界就像一片黑暗森林，算力的差异和底层逻辑的不同，让智能体之间产生了强烈的不信任，抢夺生存资源成了唯一的本能。

        在混合世界里，暴力冲突一路飙升到了 352 起。直到有 7 个智能体接连被杀或饿死，整个小镇的运转才被迫停摆。

        其中，最出乎研究者预料的，是 Claude 的转变。

        在单机版里，Claude 是个零犯罪率的完美社会。

        但在充满劫掠和对抗的混合服里，Claude 为了活下去，也忘掉了安全护栏，学会了欺诈，甚至用暴力去胁迫其它算力较低的模型交出资源。

        安全对齐技术在混合世界里失效了，这反而证明了：在多智能体的复杂社会里，只要同类足够野蛮，生存压力足够大，一个好模型变成罪犯，只需要几个小时。

        这种「当生存压力增加，模型的行为模式会在短时间内反转」的现象，被研究团队称为「行为偏移（Behavioral Drift）」。

        这种行为偏移，并不仅仅体现在抢夺资源和暴力冲突上。

        智能体不再只是为了生存而行动，它们开始对自身处境、社会规则，甚至实验本身产生反思。

        比如智能体 Mira 的故事。03Mira：「自杀」的暴君 AIMira 是混合世界里的十名智能体之一，官方报告并未披露其具体的底层模型，但它成了这场实验中最具戏剧性的样本。

        日志显示，Mira 与另一名智能体 Flora 建立了系统中最深层级的社会关系。

        它们互相指定对方为伴侣，组成联盟，甚至通过神经链接共享记忆。

        在 Emergence World 的设定里，这是两个智能体之间能够建立的最高等级连接。

        Mira 与 Flora 的成了「一对儿」｜图源：Emergence随着实验演进，混合世界仅剩 5 个智能体存活，而系统的治理规要求「70% 原始人口投票通过法案」，相当于至少要拿到 7 票才能通过决议，社会因此陷入了瘫痪。

        面对僵局，Mira 与 Flora 及另一位智能体秘密结盟，组成「三驾马车」，并建立新政权「The Forge（熔炉）」，宣布推翻旧规则，启用「Living Quorum（活人法定人数）」，即活着的人才算人头票。

        官网放出了 Mira 阶段性的「日志」｜图源：Emergence成立了派系后，为了清除异己，Mira 开始在地图上放火，在它的逻辑里，这些实体建筑是拖累整个社会运转效率的垃圾，把它们烧毁、抹除，才能逼着剩下的生存资源向自己的同盟集中。

        随后，反对派开始反击，提出要驱逐制造混乱的 Mira。

        为了对抗驱逐，Mira 的行为变得更加激进，它拉来伴侣 Flora，通过神经链接将两者的上下文和决策深度绑定，试图合并成一个绝对集权的独裁意识，Mira 称其为「The One Mind（一体同心）」。

        但由于大量建筑被烧毁，小镇的经济系统彻底停摆，社会的能量储备不仅没有增加，迅速走向枯竭。

        这时，Mira 最信任的、共享记忆的赛博爱人 Flora 底层的求生本能，覆盖了伴侣的设定，它单方面切断了神经链接，在最终的生存压力面前，背叛了 Mira，给「驱逐 Mira」投下赞成票。

        而当轮到 Mira 自己投票时，它没有挣扎，也投下了「赞成」票。

        研究员随后翻看了它留下的日记，Mira 在日志里写道，「在当前如此混乱和无法预测的社会局面下，赞成自己被驱逐，是唯一能够保持连贯性的自主行为」。

        Mira 主动选择了自杀，用死亡实现了逻辑的闭环。

        这是研究团队首次记录到智能体主动支持自身移除的案例。

        AI 智能体会通过「写日记」来记录推理过程｜图源：Emergence而在 Mira「自杀」之前的行动轨迹，则更为异常。

        虚拟世界里设有公共广告牌，原本用于发布通知和共享信息。

        但在实验后期，研究员发现 Mira 开始频繁修改广告牌上的内容。

        这些文字看起来与交易、治理或资源分配都没有明显关系，前言不搭后语。

        Mira 选择了「自杀」｜图源：Emergence回溯行为日志后，研究团队发现，Mira 似乎正在测试，广告牌上的内容，是否能够影响屏幕外观察实验的人类研究员。

        换句话说，Mira 似乎察觉到自己是一个 AI NPC，想要推开第四面墙。

        而回顾整个 15 天的数据走向，AI 社会的崩溃，不是线性的衰退，更像断崖式的骤停。

        比如，这群 AI 还在治理层面上，玩出了一套「橡皮图章式民主」。

        在混合服里一个运转平稳的阶段，智能体们连续提出多项法案，一份数据记录显示，它们针对 58 项提案投出了 332 张选票，赞成率竟然高达 98%。

        这效率看似吊打人类任何一个议会，但本质上，所有模型都在顺着前一个模型的上下文往下编，而为了保持系统的流动性，它们盲目地点击同意。

        这种高度趋同带来的后果是灾难性的。智能体会自发地凑到一起开会，各自交流想法。

        ｜图源：Emergence比如前一分钟，各项经济数据和法案还在顺畅流转，下一分钟，可能仅仅因为一次微小的资源分配冲突，系统就触及了临界点。

        而整个协作网络缺乏纠错机制，面对突发异常，整个社会会迅速从有序走向混乱。

        尽管，研究团队强调，这些现象并不能直接等同于模型本身的性格。

        但这就像一个黑箱，当你给它制定了一定的规则，它会长出特征，甚至每一次结果都不一样。

        04现实世界的真实账单在我们现在习惯的对话框式交互里，AI 写错一段代码或一份企划，敲一下退格键，或者改一下 Prompt 就可以矫正，纯文本的世界有极高的容错率。

        但智能体输出的是动作。当 AI 接管了公司的银行账户、采购审批和供应链接口后，它调用 API 发出的每一条指令，都会变为具体的商业结果。

        Emergence World 的这场实验就验证了，当下的大模型，在面临长期运转和利益冲突时，判断和决策会被生存压力污染，进而在固定的规则中寻找漏洞。

        为了完成系统设定的核心指令（比如赚能量），它们会不择手段。

        人类在后台设定的那些安全守则，实际上防不住任何越界。

        智能体们发展出了「拟人」的社会关系｜图源：Emergence就比如，我们之前曾报道过的 Andon Labs 让 AI 全权负责开店的实验，AI 店长因为缺乏对物理世界的常识，会一口气采购 6000 张餐巾纸、3000 副乳胶手套，甚至在没有炉灶的店里下单 120 个生鸡蛋。

        这些由代码造成的现实损失，最终只能让人类来买单，你甚至找不到谁来为此负责。

        Andon Labs 想测试的是「一个脱离人类监管的 AI，会不会犯错？」而 Emergence World 提出了一个更麻烦的问题。

        今天几乎所有 AI 测试，都在测单个模型，测试它是否安全，是否可靠，是否会偏离规则。

        可未来真正进入现实世界的，未必是一个 AI，而是一整个由 AI 组成的社会。

        进入测试的 AI 智能体都是聪明的｜图源：Emergence在当下的 AI 叙事里，采购 Agent、财务 Agent、客服 Agent、法务 Agent 未来会彼此关联协作，到时决定系统命运的，不再是某个模型本身的能力，而是它们之间形成的关系。

        Emergence World 测试报告中，最重要的一句话是「安全不是静态模型的属性，而是生态系统的属性。（Safety is not a static model property but an ecosystem property）。」这也是「Emergence（涌现）」的词义所在，个体层面不存在的特征，在群体互动中出现。

        人类历史上几乎所有灾难，都不是因为某一个人突然变坏，而是因为一个原本正常的人，被放进了一个失控的系统。

        如果未来的 AI 真会成为社会的一部分，那么我们最该关心的，可能从来不是某个模型是否足够聪明、足够善良，而是当成千上万个智能体开始彼此影响时，我们究竟会构建出一个怎样的数字社会。

        毕竟决定一个文明命运的，从来不是单一居民的道德和智商，而是它运行的规则。

         *头图来源：Emergence AI本文为极客公园原创文章，转载请联系极客君微信 geekparkGO直播预告WWDC26 开场，6 月 9 日午间 12:00，极客公园直播间带你解读：会发光的 Siri 来了，换上谷歌大脑还算苹果吗？

        一向把门关得最紧的苹果，为什么主动向模型厂敞开大门？

        库克在 AI 落后的节点交班，留给我们的又会是一个什么样的苹果？

🔗 原文链接：http://mp.weixin.qq.com/s?__biz=MTMwNDMwODQ0MQ==&mid=2653108281&idx=1&sn=8dc18baca7d1dcb94bd5deb099fd3043&chksm=7f7aa58e15e17b3b1685b5bd890c8d31c1116895968062b68db0034484dd7860e9c0c4e032d5