让 AI 搭3D乐高,为什么这么难?VAST 联合浙大等高校开源LegoACE
        作者 | VAST 让 AI 学会搭乐高,并不是个简单的事。

        过去几年,生成式 AI 已经学会了写文章、画图像、做视频。

        它们擅长生成"看起来合理"的内容:一段文字是否通顺,一张图片是否逼真,一段视频是否连贯,很多时候都可以从视觉和语义上判断。

        但当 AI 试图进入物理世界,问题会变得复杂得多。

        一张图片只要视觉上可信就可以,但一个 LEGO 模型必须真的能搭起来。

        每一块砖的位置、朝向和类型都要相互匹配,凸点和凹槽要对得上,局部结构要能连接,整体形状还要稳定。

        换句话说,AI 面对的不再只是"生成一个外观",而是"生成一个受规则约束的结构"。

        这正是 LegoACE 想回答的问题:如果不把所有连接规则都人工写进模型里,AI 能不能像学习语言一样,从大量真实 LEGO 模型中自己学会搭建规律?

        在 SIGGRAPH Asia 2025 上,LegoACE 给出了一种新的思路:不再显式标注每块砖的连接点,也不手工设计复杂的拼接规则,而是让模型从大量 LEGO 模型中学习"什么样的砖块组合更可能成立"。

        这件事的意义并不只在于让 AI 会搭乐高。更大的问题是:当 AI 面对分子、电路、建筑模块、机器人结构这类由基本单元组成、又受到复杂约束限制的对象时,它能否不依赖人工写死规则,而是从数据中学会现实世界的组合规律?

        论文标题:LegoACE: Autoregressive Construction Engine for Expressive LEGO Assemblies论文链接:https://doi.org/10.1145/3757377.3763881项目主页:https://xh38.github.io/LegoACE/作者单位:浙江大学、VAST、清华大学、KAUST、香港大学AI 会生成内容,但会"搭东西"吗?

        如果只是让 AI 画一辆车,它可以画出车轮、车身、车窗和车灯。

        只要图像看起来像车,结果就已经足够有说服力。但如果要让 AI 生成一个真正由 LEGO 砖块组成的车,难度就完全不同了。

        每一块砖都不是自由漂浮的像素,而是一个有明确几何形状、连接方式和空间朝向的实体。

        模型不仅要知道"这里应该有一个车轮",还要知道车轮对应什么 LEGO 零件、应该放在哪里、如何朝向、怎样与周围砖块连接,以及整个结构是否真的能拼起来。

        这类问题可以看作一种 结构化生成:对象不是连续的图像,而是由一组离散部件组成;部件之间不是随意摆放,而是受到连接、支撑、方向、空间占用等规则约束。

        LEGO 是一个很好的例子,因为它足够大众:几乎每个人都知道它是什么;但它又足够复杂:真正搭建一个模型时,背后存在大量细致的几何和结构规则。

        因此,让 AI 搭 LEGO,并不是一个简单的玩具问题。

        它实际上触及了生成式 AI 的一个更深层挑战:AI 能不能从"生成看起来像的东西",走向"生成真的能成立的结构"?

        过去的思路:把连接规则写给 AI在 LegoACE 之前,相关方法通常会尝试显式告诉 AI LEGO 砖块之间如何连接。

        这听起来很自然。既然 LEGO 的凸点和凹槽有固定位置,那就把这些连接点标出来;既然不同砖块之间有拼接规则,那就把这些规则写进系统。

        这样,AI 在生成时就可以参考这些人工定义的连接关系。

        问题在于,这条路线很难扩展。一种常见做法是基于体素建模。

        模型需要先把 LEGO 结构转成带连接关系的三维体素表示,再用生成模型进行学习和生成。

        但这通常要求为每种砖块人工标注连接点。对于少量规则砖块来说,这或许还能接受;但真实 LEGO 零件的形状和类别非常丰富,一旦砖块数量增加,人工标注和规则维护的成本就会迅速上升。

        另一类方法尝试把 LEGO 模型写成类似自然语言的文本序列,再微调大语言模型进行生成。

        代表性工作如 BrickGPT。它看起来绕开了连接点标注,但代价是只能使用较规则的方块类零件,因为这些砖块的连接关系天然比较固定。

        如果要引入车轮、窗户、门、斜面、装饰件等更丰富的不规则零件,如何设计合适的文本表示和连接规则仍然是一个难点。

        也就是说,过去方法的核心瓶颈并不只是模型能力,而是表示方式本身:只要系统依赖人工显式建模连接关系,它就很容易被砖块类型、标注成本和规则复杂度限制住。

        LegoACE 的思路:不把规则写死而让模型学会规则它不再要求人工标注每块砖的连接点,也不显式告诉模型"哪块砖能连哪块砖"。

        相反,它把 LEGO 模型看作一个按顺序搭建的过程:已经放好一部分砖块之后,模型预测下一块砖应该是什么类型、放在什么位置、采用什么朝向。

        这和大语言模型有一个很自然的类比。人们并没有把所有语法规则、搭配习惯和表达方式逐条写进语言模型里。

        模型通过阅读大量文本,逐渐学会了哪些词更可能接在一起、什么样的句子更自然、什么样的表达更符合上下文。

        LegoACE 做的事情类似,只不过学习对象从文字变成了 LEGO 结构。

        给定前面已经搭好的砖块序列,模型需要预测下一块砖。

        它会在大量训练数据中反复看到:某些砖块通常以怎样的方式组合,某些零件更适合出现在什么位置,什么样的局部结构更稳定,什么样的搭建顺序更常见。

        在这个过程中,连接关系并没有被人工写进模型,而是被模型从数据中隐式学会。

        这并不是说规则不存在,而是规则的来源发生了变化:过去是人先总结规则,再把规则交给模型;LegoACE 则是让模型直接从真实样本中学习规则。

        LegoVerse:让模型从足够多的搭建样本中学习如果要让模型自己学习搭建规律,数据规模就变得非常关键。

        为此,研究团队构建了一个新的大规模 LEGO 数据集 LegoVerse。

        相比以往规模较小、砖块类型有限的数据集,LegoVerse 覆盖了更丰富的模型和零件:55,000 个独特 LEGO 模型;9,314 种砖块类型;涵盖建筑、车辆、人物、飞船、动物、家具等多个类别;支持 48 种轴对齐旋转变换。

        这个数据集的意义在于,它让模型不再只能学习少量规则方块的组合方式,而是有机会接触真实 LEGO 设计中更加多样的零件和结构。

        这也是 LegoACE 能够摆脱显式连接点标注的重要前提:如果数据足够丰富,模型就可以从大量样本中观察到不同砖块如何组合,而不是依赖人工逐一标注每个连接位置。

        把 LEGO 模型变成"句子"要让 Transformer 生成 LEGO,第一步是把 LEGO 模型转换成一种类似语言的序列。

        在语言模型里,一句话由一串 token 组成;在 LegoACE 中,一个 LEGO 模型也被表示为一串 token。

        区别在于,语言 token 表示词或子词,而 LEGO token 表示砖块的空间信息和类型信息。

        LegoACE 使用了 LEGO Native Tokenization,把每块砖编码成三个 token:位置 token:表示这块砖放在哪里;旋转 token:表示这块砖采用什么朝向;类型 token:表示这块砖是哪一种零件。

        整个 LEGO 模型则按照固定的空间顺序进行序列化,从而被转换成一个可以由自回归模型处理的 token 序列。

        这里最关键的一点是:类型 token 只是区分"这是什么砖块",并不显式编码这块砖有哪些连接点、哪里能拼、哪里不能拼。

        也就是说,模型并没有被直接告知砖块的几何连接规则。

        它需要自己从训练数据中学会:某种类型的砖块,通常在什么位置、什么方向下,会和哪些砖块合理组合。

        在模型结构上,LegoACE 基于 decoder-only Transformer,也就是和许多大语言模型类似的自回归生成范式。

        给定前面已经生成的砖块序列,模型预测下一个 token,并逐步生成完整的 LEGO 模型。

        这种设计让 LEGO 生成问题被转化为一个更通用的问题:能否像生成句子一样,生成一个由离散部件组成的三维结构?

        两种条件生成:从文字和图像出发搭 LEGOLegoACE 不只支持无条件生成,也支持从不同输入条件出发生成 LEGO 模型。

        第一种是 文字条件生成。用户输入一句描述,例如一辆车、一座建筑或一个动物模型,系统通过 CLIP 提取文本语义,再指导模型生成相应的 LEGO 结构。

        第二种是 多视角法线图条件生成。给定目标物体的多视角法线图,系统通过 DINOv2 提取视觉特征,再生成对应的 LEGO 模型。

        这相当于让模型根据一个三维物体的外观和形状线索,直接预测一个可由 LEGO 砖块组成的结构。

        为了增强模型从局部信息推断完整结构的能力,LegoACE 还在训练中引入了数据增强:随机截取模型的一段子序列,渲染对应的法线图作为条件输入,让模型学习如何从部分结构恢复完整模型。

        在训练完成后,研究团队进一步使用 DPO(Direct Preference Optimization) 进行对齐。

        对于同一个输入,模型生成两个候选结果,再根据 Chamfer Distance 判断哪个更接近真实结构,并将更好的结果作为偏好样本,用于进一步优化模型。

        这些技术细节背后的目标其实很直接:让模型不只是"会生成砖块序列",而是能根据文字或图像条件,生成更符合目标对象形态的 LEGO 结构。

        结果:更丰富的零件更高的生成质量和基于体素扩散的 LEGO 生成方法相比,LegoACE 在训练和推理效率上都有明显优势。

        由于它不需要把每块砖展开成大量体素,也不需要显式处理复杂连接点,整个生成过程更加轻量。

        更重要的是,LegoACE 能使用更加丰富的砖块类型。

        这直接带来了视觉表现力上的差异。在文字条件生成中,与 BrickGPT 这类主要依赖规则方块的表示方式相比,LegoACE 可以自然地使用车轮、方向盘、门窗、装饰件等专用零件。

        因此,当生成车辆、建筑或家具时,它不必用普通方块去"模拟"这些部件,而是可以直接选择更合适的 LEGO 零件。

        在法线图条件生成任务上,论文对比了一条更间接的路线:先使用 3D 生成或重建方法从图像得到 mesh,再通过 Blender 插件将 mesh 转换为 LEGO 方块模型。

        相比之下,LegoACE 可以直接从法线图端到端生成 LEGO 结构,因此在整体形态和局部细节上都更贴近目标对象。

        从生成结果来看,LegoACE 在建筑、车辆、动物、人物等类别上都能产生较完整的 LEGO 模型。

        模型不仅能够捕捉对象的整体轮廓,也能在适当位置使用专用零件,提高生成结果的表现力。

        这些结果说明,隐式学习连接关系并不一定会削弱生成能力。

        相反,当数据规模和表示方式足够合适时,它可能让模型摆脱人工规则的限制,从而覆盖更丰富的零件和结构。

        为什么这件事不只是 LEGO?如果只把 LegoACE 看作一个 LEGO 生成系统,它当然已经足够有趣。

        但更值得讨论的是,它背后反映了一类更普遍的问题。很多真实世界对象都可以被看作"受约束的基本单元如何组合":分子由原子和化学键组成;电路由元件和连接关系组成;建筑可以由模块化构件组成;机械结构由零件和装配关系组成;机器人形态也可以由关节、连杆和功能模块组成。

        这些对象的共同特点是:它们不是连续图像,而是离散结构;它们不是随意组合,而是受到规则约束;它们的规则往往很多、很细、强依赖上下文,很难完全手工写清楚。

        传统方法往往会先定义规则,再让模型在规则内生成。这种方式可靠、可控,但当对象类型变复杂、部件种类变多时,规则设计和标注成本会迅速上升。

        LegoACE 展示了另一种可能:不一定先把所有规则写出来,而是让模型从大量真实结构中学习哪些组合更自然、哪些连接更可能成立。

        这和大语言模型的发展有某种相似性。语言当然有语法,但现代语言模型并不是靠人类逐条写入语法规则才学会表达。

        它们通过大量文本样本,学习到词语之间、句子之间、上下文之间的统计规律。

        LegoACE 则把这种思路带到了三维结构生成中:LEGO 砖块就像一种结构化语言,砖块类型、位置和朝向构成了"词",搭建顺序构成了"句子",最终模型生成的是一个具有空间结构和连接逻辑的"作品"。

        从这个角度看,LEGO 只是入口。真正值得关注的是:当 AI 走向物理世界和复杂结构设计时,它能否像学习语言一样,学会现实世界中那些难以完全写清楚的组合规律?

        从"内容生成"到"结构生成"今天的大多数生成式 AI 应用,仍然主要集中在内容层面:文字、图像、音频、视频。

        这些内容的评价标准通常偏感知和语义:是否自然、是否清晰、是否符合描述。

        但未来越来越多的 AI 任务会进入结构层面。结构生成的要求更高。

        它不仅要像,还要能成立;不仅要符合语义,还要满足约束;不仅要生成一个结果,还要保证部件之间的关系合理。

        这也是 LegoACE 的高层意义所在。它不是简单地把 LLaMA 用在 LEGO 上,而是在探索一个更大的问题:面对由离散部件组成、并受到复杂规则约束的对象,AI 应该如何生成?

        一种方式是继续手工定义规则,把规则写得越来越细。另一种方式是利用大规模数据,让模型自己学习规则。

        更现实的未来,可能是两者结合:模型负责学习复杂的组合偏好和设计模式,显式约束负责保证物理可行性和安全边界。

        LegoACE 站在了这个方向上。它证明,对于 LEGO 这样具有明确连接逻辑和丰富部件类型的对象,模型可以在不依赖显式连接点标注的情况下,从数据中学习到有效的搭建规律。

        这为更广泛的结构化生成任务提供了启发。边界:隐式学习并不等于没有约束当然,让模型隐式学习规则,并不意味着规则消失了。

        对于 LEGO 这样的物理结构,连接是否合法、整体是否稳定、模型是否真的能够拼接,仍然是必须面对的问题。

        LegoACE 的生成结果虽然展现了很强的扩展性和表现力,但由于缺少显式结构约束,在训练数据不足或遇到罕见组合时,仍可能出现无法实际拼接的问题。

        这也是后续工作需要继续解决的方向。一方面,可以继续扩大数据规模,让模型看到更多真实搭建样本;另一方面,也可以将隐式学习到的生成能力与显式几何检查、物理约束、装配验证结合起来,使生成结果既丰富,又可靠。

        因此,LegoACE 并不是在否定规则,而是在重新思考规则与学习之间的关系:复杂规则不一定都要由人手工写出,也可以通过数据被模型学习;但在真正进入物理世界时,学习到的规则仍然需要和显式约束共同发挥作用。

        结语LEGO 是一个有趣的切入点,因为它既熟悉又复杂。

        每个人都知道 LEGO 可以拼搭出各种模型,但真正让 AI 学会搭 LEGO,并不只是让它生成一堆砖块,而是让它理解砖块之间如何组合、连接和支撑。

        LegoACE 的价值不只在于生成 LEGO 模型。

        它更像是一个观察窗口,让我们看到生成式 AI 可能从"内容生成"走向"结构生成"。

        过去,我们常常把复杂规则写给 AI。现在,一个新的方向正在出现:让 AI 从大量真实样本中自己学会规则。

        从 LEGO 到分子、电路、建筑和机器人结构,这类问题会越来越重要。

        因为现实世界中的许多对象,本质上都不是孤立的形状,而是由基本单元在复杂约束下组合而成的结构。

        LegoACE 提出的思路说明,当 AI 面对这样的结构化世界时,它不一定只能被动接受人工定义好的规则。

        它也可以通过数据,学习什么样的组合更自然、什么样的结构更可能成立。

        这或许正是生成式 AI 走向真实世界时必须跨过的一步。

        会议推荐企业级 Agent 落地,绕不开 4 个真实的工程问题!

        如何在 Agent 安全性和可用性之间找到平衡点?

        Agent 需要什么样的记忆系统才能真正理解上下文?

        如何通过算法压榨实现智力增量与成本控制的极致平衡?

        多 Agent 协作,如何做到可观测、可治理、可控制?

        6.26-27 AICon 上海站,国内头部公司的 Agent 实践,一次说透。

        今日荐文利润暴涨755%,AI赚疯了,韩国芯片工人却不干了全球首个完全AI编写的训练框架来了,速度反超英伟达:面壁要用 AI 把国产算力软件重写一遍米哈游一夜烧掉200万元Token,大厂高管也开始质疑:Token烧不出价值,但养肥了谁?

        中国首次提出半导体演进新原则:华为“韬定律”5 年内冲刺等效1.4nm制程,麒麟、昇腾将先后落地量产台积电盈利暴涨却大削奖金?

        员工气愤欲罢工;00后赠母校20亿Token,被质疑仅值几百元;百倍奖金差距致内部分裂,三星HBM产线怠工|AI周报你也「在看」吗?👇
🔗 原文链接:http://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247662940&idx=2&sn=4d833aeafbd6c2eafb3b5da467ce8bf8&chksm=fa6727b82e8c144eb5e3c85c78ef111d473410c3bc415fd7fc6c9d66e80ae8d8c3a6890fc4f0
← 返回列表