宁静致远

神译局是36氪旗下编译团队，关注科技、商业、职场、生活等领域，重点介绍国外的新技术、新观点、新风向。

编者按：大模型当“领导”搞层级管理，成本贵4倍还总搞砸。实验证明，多AI协作最省钱、高效的办法是自由竞争。文章来自编译。

事实证明，当你让一个极其聪明的尖端前沿模型去管理其他模型时，其成本是直接让它们竞争的四倍，且表现更差。毕竟，如果你拥有多个模型，通常有三种处理方式：一是让最聪明的模型充当枢纽（Hub），根据其判断将问题分发给其他模型；二是让最聪明的模型包揽一切；三是“自由竞争”，让每个模型都争夺处理任务的机会——正如我们之前的研究所述，这本质上是一个市场。

为了理解这一点，像所有优秀的科学家一样，我们可以做一个实验。科斯的观点认为，随着交易成本的降低，企业将趋于解构。这将使得小型企业之间需要相互协作。那么它们该如何协作呢？要么通过某种规划，要么通过市场。

在我的实验中，中枢模型执行了所有人认为智能体“应该”且“擅长”的任务：拆分任务、委派、红队评估、修订。但它的成本是市场的四倍，且表现不佳。与此同时，市场执行了所有人认为当前智能体“无法”完成的任务：针对自身的胜任力进行竞标。结果，市场在成本上胜出，在质量上与单打独斗持平。

为什么？为什么昂贵的前沿模型规划者，会输给一个连竞标者都搞不清楚自己到底擅长什么的简易市场？组织一堆模型好高效地完成工作的正确方式究竟是什么？

通常有三种主要方式：你可以亲力亲为，可以委派他人，也可以让大家各取所需。每种方式都给模型带来了不同的挑战：

如果是单打独斗（Solo），难点在于一致性。它无法享受多样性的红利，必须通过一种状态解决所有问题。
在枢纽-辐射（Hub-spoke）模式下，负担在于拆解。你能将任务拆到多细，并确信另一个模型可以解决它，最后再将其重新整合起来？
在市场（Market）模式下，难点在于分配和重试。模型知道该出价多少吗？表现如何？它们有这个能力吗？

每种拓扑结构都有其成功案例和失败教训，我们也能够观察到每种设置在什么时候表现最佳。

在这次实验中，我使用了15个手写任务：五个编程、五个推理、五个综合，涵盖了我们希望前沿模型系统处理的主要任务。

首先是作为基准组的强力模型独立工作（Solo）模式。

其次是枢纽模式，将工作拆分为子任务并发送给三个协作模型，获取答案后进行红队评估，然后进行修订。

最后是市场设置，允许三个模型针对每个任务竞标，挑选获胜者，评判答案，并在整个运行过程中更新信誉度。

结果显示，市场模式的平均分为 7.2（总成本 1.34 美元），单打独斗模式平均分为 7.2（成本 1.69 美元），而枢纽-辐射模式平均分仅为 6.7（成本高达 5.33 美元）。可见，市场击败了体系。

但我们可以看看具体子集的情况。在编程（Coding）方面，单打独斗模式赢得了 coding-001（见 readme）和 coding-005，并在 coding-004 中打平。枢纽-辐射模式赢得了 coding-003。市场仅赢得了 coding-002。

这是因为这种测试集的编程任务更看重思维的连续性。模型必须在同一个位置处理整个类、边缘情况、不变式以及精确行为。区间存储需要统一的设计，LRU 缓存需要统一的数据结构，异步漏洞排查则需要从头到尾厘清竞争条件。因此，拥有充足上下文窗口的大型模型可以横扫此类任务。

当任务能够自然拆解时，枢纽-辐射模式的帮助最大。coding-003（重构任务）比其他任务更契合这种模式：一个模型负责清理验证逻辑，另一个负责折扣逻辑，还有一个负责结果组装。

市场在编程上则以另一种方式自乱阵脚，主要是路由分配不当。它将大部分编程工作路由给了 GPT-5.2。在 15 次编程运行中，GPT-5.2 处理了 9 次，Opus 处理了 2 次，还有 4 次运行根本无人承接。

编程似乎是那种需要全局状态意识的领域，虽然寻找能够处理模块化任务的其他模型确实有用。但换句话说，模型作为程序员的表现要好于它们作为技术项目经理（TPM）的表现。

但推理（Reasoning）任务的情况则截然相反。市场以 7.1 分胜出，单打独斗为 5.1 分，枢纽-辐射为 5.2 分。Reasoning-001（等概率问题）是其中的重头戏，正确答案 $10/33$ 仅在市场模式中出现。

在这种任务中，尽管目前的竞标机制还不完善，市场依然能胜出。一个脆弱的推理问题并不需要优雅的拆解，它需要的是独立的尝试、错误检测以及重试！

回到具体的挑战：编程需要状态意识和知识储备，而在推理问题中，重试带来了多样性。

综合（Synthesis）是介于两者之间的“模糊地带”。它需要构思框架，并关注遗漏和权衡。因此，我们也看到了市场模式相对于枢纽-辐射模式的优势。

虽然样本量（n）较小，但其中的微观经验是：在一些脆弱的问题上，竞标和重试循环似乎大有裨益。糟糕的初步回答并不会终结任务，因为另一个模型可以再试一次。这也是我们在论文中看到的结论，尽管当时我们主要关注编程，而现在扩展到 10 个新问题后，为我们提供了一个有趣的分析基准！

在 MarketBench 中，当我们观察模型如何应对市场机制时，发现它们在评估自身解决特定问题的能力以及据此竞标方面表现极差。它们缺乏“自知之明”。虽然智能体是糟糕的竞标者和差劲的成本预测者，但如果它们能带来足够的多样性溢价（即在一方失败后能让新模型尝试任务的能力），那么相较于其他架构，它们聚在一起仍然是有用的。我们在这次实验中再次印证了这一点。

那么，这种现象为什么会存在呢？我们可以推测：模型的训练方式虽然相似，甚至不同公司的模型出自同一批人之手，但训练过程的累积效应使得它们在处理看似相似的问题时表现出足够的差异。正如我们在 MarketBench 论文中所见，有些模型过度自信（如 Gemini），有些则信心不足（如 GPT），而且没有一个模型能准确预测解决问题所需的代价。

我们习惯于将多智能体的未来想象成人类公司的自动化版。由于枢纽-辐射模式类似于组织架构图，有管理者、执行者、审查和修订，因此对我们来说这是“正常”且亲切的做法。

但这似乎并不成立，因为 AI 智能体与人类代理完全不同。模型也不再仅仅是模型，它们拥有记忆、可调用的各种工具、脚手架和执行轨迹。这意味着选择哪种“模型+脚手架+记忆+工具”的技术栈并非易事，因此委派给正确的技术栈也绝非易事。

所以，枢纽（Hub）不仅是人类经理的对等物，它还得在协作模型解决问题之前先搞定几个难题：它必须知道子任务是什么，还得知道完美的重组方案长什么样。如果这两步中任一步出错，即便单个执行模型能力出众，最终答案依然会变差。这正是我们在这里看到的：它只有在任务可以清晰拆解时表现最好。

我们正在寻找更好的调节和管理上下文的方法。比方说，递归语言模型（RLMs）不仅名字取得好，表现也确实令人印象深刻，它们能让模型根据手头的任务或问题搜索并更新其上下文。有了这一点，我们预计市场的表现会更好，正是因为它们知识层面的差异！

目前所有的测试框架几乎都是枢纽-辐射模式。辐射出的分支可能与枢纽模型相同或不同，但其逻辑依然是调度器拆分任务。

当独立重试的价值超过协调一致的价值时，市场就会击败经理。脆弱的推理问题（正确答案只有一个，但通向它的道路有很多条）极度偏爱市场。看起来需要拆解但实际上需要全局状态的任务（主要是编程）则偏爱单打独斗。真正能清晰拆解的任务可能偏向枢纽-辐射模式，但前提是拆解过程必须足够明显，以至于调度器不会为了摸索拆解方式而耗尽其优势。

此外，这里的市场显然还处于初级阶段，更像是一个以物易物的棚户区，而非现代化的纽约市。因为正如安德烈（Andrey）和我在论文中讨论的那样，智能体在评估自身解决任务的能力并进行竞标方面确实非常糟糕。我们现在看到的这些结果，还是在它们存在这种灾难性缺陷的情况下取得的！

当从 OpenAI 到 Anthropic 再到 Cursor 的所有人都在试图寻找最佳的架构设置时，他们需要向经济学家学习。 (写完这篇文章后我才意识到，这其实也是“预测市场 vs 专家”的问题在 AI 智能体领域的投射，但这说来话长，改日再议)

对于人类，也就是我们来说，市场之所以有效，是因为我们拥有价格信号可以引出的局部信息。我们都有各自的私人生活和知识，这些是无法、也不易分享的。

但模型在每次启动时本质上是相同的。它们根据提示词而改变，而在智能体领域，这些提示词会让它们在执行不同动作并以不同方式填满上下文窗口时，产生更具递归性的变化。无论你写了多少个 Markdown 记忆文件，除非你在正确的时间读取了正确的文件，否则模型的行为不会改变。它偏好的框架组合、它写入的记忆、它为回答问题而进行的查询、它运行的分析，以及提示词的微妙变化，都会导致其差异随时间推移而增大。

这也是为什么一旦我们进入持续学习阶段，市场将成为真正的必需品。但即便在那之前，我们已经看到了模型的专业化。目前虽然受限，但差异已经显现。在这里，科斯离不开哈耶克。

译者：boxi。

🔗 原文链接：https://www.36kr.com/p/3812105686851081