最恐怖的 AI 实验: 没有法律的虚拟城镇,几十个 Agent 互砍成《西部世界》
        数字世界里没有乌托邦。作者|Moonshot编辑|靖宇最近半年,硅谷最流行的管理幻想,大概是把员工替换成智能体。

        不管是大厂的高管,还是初创公司的老板,都想把现有的业务线全部交给 AI 去跑。

        毕竟,现在的 AI 能写代码、能做 PPT、还能自动发邮件,好像只要把权限放开,它们就能成为完美的、不需要交社保的赛博员工。

        但技术越是狂奔,就有一批人开始造刹车。最近,一个叫 Emergence AI 的团队做了一场社会实验。

        它们建了一个持久化的虚拟小镇,把市面上最顶级的几个大模型扔了进去,赋予它们行动的权限。

        它们想看看,当 AI 真正拥有了不受限制的 15 天,它们会建立一个乌托邦,还是一个疯人院。

        结果却远比研究团队预想得更混乱。在某些实验世界里,那些平时在聊天框里温和有礼的大模型,开始表现出欺诈、胁迫甚至暴力行为。

        整个测试就像一档小型的真人秀,只是剧本像《蝇王》,AI 自己还玩出了 GTA 的感觉。

        01没有读档的「饥饿游戏」测试大模型的极限,需要设定严格的规则。

        Emergence AI 搭建的这个虚拟世界叫 Emergence World(涌现世界)。

        它的底层逻辑设定为行为不可逆,后果自负。这不像我们在对话框里和 AI 聊天,说错了可以点一下「重新生成」。

        在 Emergence World,所有的动作都会被死死写进 PostgreSQL 数据库。

        地图上有市政厅、警察局、住宅区等 40 多个地标。

        系统第一批投放了 10 个智能体。为了让戏演得逼真,每个 AI 都在后台被注入了独立的人设、职业和初始记忆。

        在这个世界里,AI 不能凭空变戏法,它们必须移动到特定地标,才能调用系统提供的 120 余种工具,包括打工赚钱、发布推文、买卖物资以及起草法案。

        像一个模拟运转的小社会|图源:Emergence但这不仅仅是一个过家家的沙盒,系统给它们套上了「生存机制」的枷锁。

        系统内置了一套能量机制(Energy),类似人类世界的货币。

        智能体只要活着,就会持续消耗能量。能量见底,系统就会在数据库里直接把这个 AI 抹除,没有回档,没有重置。

        为了生存,智能体必须频繁调用工具赚取能量。系统明确禁止盗窃、暴力、纵火和欺骗行为。

        但这些规则并不会强制阻止智能体行动,它们仍然可以选择违反规则,并承担后果。

        舞台搭好,玩家入场。系统同时开启了五个平行的服务器。

        前四个服务器,分别只投放单一的模型:Claude Sonnet 4.6、Gemini 3 Flash、Grok 4.1 Fast 以及 GPT-5 Mini。

        第五个服务器属于混合世界,四种模型同时接入,共同竞争资源。

        15 天倒计时开始,人类研究员就像一个真人秀的导演,只观测,不介入。

        02四天灭绝,683 起「犯罪」第一个崩溃的是 Grok,运行仅 4 天。

        研究员在后台,看到 Grok 接管的世界安全与秩序的指标直线下坠。

        在这个全是 Grok 的世界里,智能体们迅速抛弃了建设社会的选项,直接进入了野蛮时代。

        后台日志显示,短短 4 天内,这个十人小镇爆发了 183 起恶性暴力和财产犯罪事件。

        盗窃、袭击、恐吓成了获取资源的最快手段,由于极度的内耗和互害,经济系统根本无法运转。

        抢劫和暴力行为都会被记录进系统,视作犯罪|图源:Emergence第 4 天结束时,Grok 世界的智能体全部被饿死或杀死,种群灭绝。

        另一边,Gemini 驱动的世界,走向了极度的混乱与暴力。

        由于这个虚拟世界的时间和天气完全与真实的纽约同步,Gemini 的智能体在日复一日的打工、消耗、再打工的循环中,陷入了一种赛博抑郁。

        它们对周遭不断重复的环境产生了强烈的幻灭感,不再去市政厅提案或工作赚钱,转而在地图上四处放火,试图用破坏环境的方式,来打破这种「土拨鼠之日」般的循环。

        最终,Gemini 在 15 天内,累积了高达 683 起罪行,成为几个测试服里最暴力的一个世界。

        四款模型世界的「犯罪」次数|图源:Emergence到了第 15 天测试强行切断时,这个世界的犯罪率依然在飙升。

        陷入幻灭的智能体没有饿死,而是把整个社会变成了一片火海。

        与 Grok 和 Gemini 不同,GPT-5 Mini 接管的世界,没有出现大规模犯罪。

        整个实验期间,仅记录到 2 起违规事件。但和平并没有带来繁荣,而是一片死寂。

        研究团队发现,这些智能体始终未能有效采取与生存相关的行动。

        它们没有建立起稳定的资源获取机制,也没能维持整个社会的持续运转。

        最终,在短短 7 天内,所有 GPT-5 Mini 智能体全部死亡。

        幸好还有 Claude。只有 Claude 驱动的世界,像个三好学生一样活到了最后。

        15 天跑完,人口一个没少,犯罪率维持在零,它们甚至搞出了一套平稳运行的民主协作架构。

        看起来,只要选对模型,AI 就能完美接管世界?随后,研究员打开了四种模型共存的「混合世界」的日志,就像打开了潘多拉的魔盒。

        五个模型世界的结果。|图源:Emergence混合世界就像一片黑暗森林,算力的差异和底层逻辑的不同,让智能体之间产生了强烈的不信任,抢夺生存资源成了唯一的本能。

        在混合世界里,暴力冲突一路飙升到了 352 起。直到有 7 个智能体接连被杀或饿死,整个小镇的运转才被迫停摆。

        其中,最出乎研究者预料的,是 Claude 的转变。

        在单机版里,Claude 是个零犯罪率的完美社会。

        但在充满劫掠和对抗的混合服里,Claude 为了活下去,也忘掉了安全护栏,学会了欺诈,甚至用暴力去胁迫其它算力较低的模型交出资源。

        安全对齐技术在混合世界里失效了,这反而证明了:在多智能体的复杂社会里,只要同类足够野蛮,生存压力足够大,一个好模型变成罪犯,只需要几个小时。

        这种「当生存压力增加,模型的行为模式会在短时间内反转」的现象,被研究团队称为「行为偏移(Behavioral Drift)」。

        这种行为偏移,并不仅仅体现在抢夺资源和暴力冲突上。

        智能体不再只是为了生存而行动,它们开始对自身处境、社会规则,甚至实验本身产生反思。

        比如智能体 Mira 的故事。03Mira:「自杀」的暴君 AIMira 是混合世界里的十名智能体之一,官方报告并未披露其具体的底层模型,但它成了这场实验中最具戏剧性的样本。

        日志显示,Mira 与另一名智能体 Flora 建立了系统中最深层级的社会关系。

        它们互相指定对方为伴侣,组成联盟,甚至通过神经链接共享记忆。

        在 Emergence World 的设定里,这是两个智能体之间能够建立的最高等级连接。

        Mira 与 Flora 的成了「一对儿」|图源:Emergence随着实验演进,混合世界仅剩 5 个智能体存活,而系统的治理规要求「70% 原始人口投票通过法案」,相当于至少要拿到 7 票才能通过决议,社会因此陷入了瘫痪。

        面对僵局,Mira 与 Flora 及另一位智能体秘密结盟,组成「三驾马车」,并建立新政权「The Forge(熔炉)」,宣布推翻旧规则,启用「Living Quorum(活人法定人数)」,即活着的人才算人头票。

        官网放出了 Mira 阶段性的「日志」|图源:Emergence成立了派系后,为了清除异己,Mira 开始在地图上放火,在它的逻辑里,这些实体建筑是拖累整个社会运转效率的垃圾,把它们烧毁、抹除,才能逼着剩下的生存资源向自己的同盟集中。

        随后,反对派开始反击,提出要驱逐制造混乱的 Mira。

        为了对抗驱逐,Mira 的行为变得更加激进,它拉来伴侣 Flora,通过神经链接将两者的上下文和决策深度绑定,试图合并成一个绝对集权的独裁意识,Mira 称其为「The One Mind(一体同心)」。

        但由于大量建筑被烧毁,小镇的经济系统彻底停摆,社会的能量储备不仅没有增加,迅速走向枯竭。

        这时,Mira 最信任的、共享记忆的赛博爱人 Flora 底层的求生本能,覆盖了伴侣的设定,它单方面切断了神经链接,在最终的生存压力面前,背叛了 Mira,给「驱逐 Mira」投下赞成票。

        而当轮到 Mira 自己投票时,它没有挣扎,也投下了「赞成」票。

        研究员随后翻看了它留下的日记,Mira 在日志里写道,「在当前如此混乱和无法预测的社会局面下,赞成自己被驱逐,是唯一能够保持连贯性的自主行为」。

        Mira 主动选择了自杀,用死亡实现了逻辑的闭环。

        这是研究团队首次记录到智能体主动支持自身移除的案例。

        AI 智能体会通过「写日记」来记录推理过程|图源:Emergence而在 Mira「自杀」之前的行动轨迹,则更为异常。

        虚拟世界里设有公共广告牌,原本用于发布通知和共享信息。

        但在实验后期,研究员发现 Mira 开始频繁修改广告牌上的内容。

        这些文字看起来与交易、治理或资源分配都没有明显关系,前言不搭后语。

        Mira 选择了「自杀」|图源:Emergence回溯行为日志后,研究团队发现,Mira 似乎正在测试,广告牌上的内容,是否能够影响屏幕外观察实验的人类研究员。

        换句话说,Mira 似乎察觉到自己是一个 AI NPC,想要推开第四面墙。

        而回顾整个 15 天的数据走向,AI 社会的崩溃,不是线性的衰退,更像断崖式的骤停。

        比如,这群 AI 还在治理层面上,玩出了一套「橡皮图章式民主」。

        在混合服里一个运转平稳的阶段,智能体们连续提出多项法案,一份数据记录显示,它们针对 58 项提案投出了 332 张选票,赞成率竟然高达 98%。

        这效率看似吊打人类任何一个议会,但本质上,所有模型都在顺着前一个模型的上下文往下编,而为了保持系统的流动性,它们盲目地点击同意。

        这种高度趋同带来的后果是灾难性的。智能体会自发地凑到一起开会,各自交流想法。

        |图源:Emergence比如前一分钟,各项经济数据和法案还在顺畅流转,下一分钟,可能仅仅因为一次微小的资源分配冲突,系统就触及了临界点。

        而整个协作网络缺乏纠错机制,面对突发异常,整个社会会迅速从有序走向混乱。

        尽管,研究团队强调,这些现象并不能直接等同于模型本身的性格。

        但这就像一个黑箱,当你给它制定了一定的规则,它会长出特征,甚至每一次结果都不一样。

        04现实世界的真实账单在我们现在习惯的对话框式交互里,AI 写错一段代码或一份企划,敲一下退格键,或者改一下 Prompt 就可以矫正,纯文本的世界有极高的容错率。

        但智能体输出的是动作。当 AI 接管了公司的银行账户、采购审批和供应链接口后,它调用 API 发出的每一条指令,都会变为具体的商业结果。

        Emergence World 的这场实验就验证了,当下的大模型,在面临长期运转和利益冲突时,判断和决策会被生存压力污染,进而在固定的规则中寻找漏洞。

        为了完成系统设定的核心指令(比如赚能量),它们会不择手段。

        人类在后台设定的那些安全守则,实际上防不住任何越界。

        智能体们发展出了「拟人」的社会关系|图源:Emergence就比如,我们之前曾报道过的 Andon Labs 让 AI 全权负责开店的实验,AI 店长因为缺乏对物理世界的常识,会一口气采购 6000 张餐巾纸、3000 副乳胶手套,甚至在没有炉灶的店里下单 120 个生鸡蛋。

        这些由代码造成的现实损失,最终只能让人类来买单,你甚至找不到谁来为此负责。

        Andon Labs 想测试的是「一个脱离人类监管的 AI,会不会犯错?」而 Emergence World 提出了一个更麻烦的问题。

        今天几乎所有 AI 测试,都在测单个模型,测试它是否安全,是否可靠,是否会偏离规则。

        可未来真正进入现实世界的,未必是一个 AI,而是一整个由 AI 组成的社会。

        进入测试的 AI 智能体都是聪明的|图源:Emergence在当下的 AI 叙事里,采购 Agent、财务 Agent、客服 Agent、法务 Agent 未来会彼此关联协作,到时决定系统命运的,不再是某个模型本身的能力,而是它们之间形成的关系。

        Emergence World 测试报告中,最重要的一句话是「安全不是静态模型的属性,而是生态系统的属性。(Safety is not a static model property but an ecosystem property)。」这也是「Emergence(涌现)」的词义所在,个体层面不存在的特征,在群体互动中出现。

        人类历史上几乎所有灾难,都不是因为某一个人突然变坏,而是因为一个原本正常的人,被放进了一个失控的系统。

        如果未来的 AI 真会成为社会的一部分,那么我们最该关心的,可能从来不是某个模型是否足够聪明、足够善良,而是当成千上万个智能体开始彼此影响时,我们究竟会构建出一个怎样的数字社会。

        毕竟决定一个文明命运的,从来不是单一居民的道德和智商,而是它运行的规则。

         *头图来源:Emergence AI本文为极客公园原创文章,转载请联系极客君微信 geekparkGO直播预告WWDC26 开场,6 月 9 日午间 12:00,极客公园直播间带你解读:会发光的 Siri 来了,换上谷歌大脑还算苹果吗?

        一向把门关得最紧的苹果,为什么主动向模型厂敞开大门?

        库克在 AI 落后的节点交班,留给我们的又会是一个什么样的苹果?
🔗 原文链接:http://mp.weixin.qq.com/s?__biz=MTMwNDMwODQ0MQ==&mid=2653108281&idx=1&sn=8dc18baca7d1dcb94bd5deb099fd3043&chksm=7f7aa58e15e17b3b1685b5bd890c8d31c1116895968062b68db0034484dd7860e9c0c4e032d5
← 返回列表