统治AI十年的Transformer,要被亲爹亲手砸碎?
          新智元报道  【新智元导读】80分钟的拳击式辩论!Transformer联合发明人亲自下场为自己的作品辩护,对面三位挑战者直指五大死穴。

        这是AI架构十年来最硬的一次正面交锋。统治AI黄金十年的架构,地基是不是已经松了?

        Transformer凭什么统治AI这么久?长上下文、记忆、推理这些短板,新架构真能突破吗?

        所谓「后Transformer」,到底是更强的记忆机制、更高效的序列建模,还是从训练到系统都得换一套?

        5月5日,旧金山,Pathway搞了场拳击擂台式的辩论赛。

        这不是比喻,是真擂台。一边是Transformer的共同发明人Łukasz Kaiser,另一边是主张「后Transformer时代」的新架构派。

        注意一个细节:注意力机制的两位联合发明人,「Transformer八子」之一Llion  Jones,坐在了Kaiser的对立面。。

        话题就一个:下一代AI架构到底长什么样。现场坐满研究者、创业者和投资人。

        输赢不靠投票,靠「clapometer」——拍手计分器,谁掌声响谁赢。

        这是一场刀刀见红、指名道姓的硬碰硬。当裁判宣布比赛开始,统治了全球AI架构近十年的神话,第一次被它的缔造者亲自拉上了被告席进行自卫辩护。

        这场思想界的重量级对决,从Transformer的五大死穴开始。

        苦Transformer久矣五大死穴Łukasz Kaiser的身份让这场辩论的分量直接拉满。

        他是Transformer的联合发明人。2017年那篇改变整个AI格局的论文「Attention Is All You Need」,他是作者之一。

        之后他参与了ChatGPT、GPT系列和o1的实际工程开发。

        他是当事人。他今天坐在这里,是为自己的作品做辩护。

        对面的三位挑战者,来头同样不小。Llion Jones,Transformer的另一位联合发明人,Sakana AI联合创始人。

        Adrian Kosowski,Pathway首席科学官,BDH架构的发明人。

        Matthias Lechner,Liquid AI首席技术官,MIT液态神经网络的共同发明人。

        这本身就是技术史上极其罕见的画面。创造同一个东西的人,对它的未来产生了根本性分歧。

        Kaiser开场用了一个类比。他说Transformer的注意力机制,就像图书管理员的卡片索引系统。

        你走进图书馆,说出你要找的内容(query),管理员翻开卡片目录(key),找到对应的书架位置,把书取出来交给你(value)。

        简洁。高效。全局检索。但挑战者们要问的是:如果这个图书馆有一亿本书呢?

        每次查询都要翻遍所有卡片,这个系统还能撑住吗?这就是O(n²),悬在Transformer头上的达摩克利斯之剑。

        三位挑战者没有笼统地说「Transformer不行了」。

        他们拆出了五个具体的、当前Transformer架构无法在设计层面解决的开放难题。

        每一个都直指要害。挑战者们最尖锐的隐喻,直指Transformer的记忆与持续学习缺陷:「土拨鼠之日」。

        在电影《土拨鼠之日》中,主角每天醒来,世界都会重置,昨天的记忆荡然无存。

        目前,Transformer也是如此。每一次推理(Forward Pass),它的权重(Weights)都是完全冻结的。

        哪怕你今天跟它聊了十个小时,它学到了绝妙的新知识,在下一次会话启动时,它依然是一个失忆的白痴。

        现在工业界为了解决这个问题,拼命往里塞RAG(检索增强生成)、长上下文(KV Cache)。

        但这根本不是架构级的解法,而是用昂贵的算力在伤口上贴创可贴。

        五大死穴,每一个单拎出来都不是小事。合在一起,构成了一张完整的起诉书。

        但起诉书不等于判决书。Kaiser的底牌你行你上,拿曲线说话面对五大攻击,Kaiser没有一一辩驳。

        他没说O(n²)不是问题,没说灾难性遗忘不存在,没说Transformer完美无缺。

        他抛出了一句话,成了整场辩论的核心:除非Post-Transformer证明更好的scaling曲线,否则Transformer仍然是主流。

        这句话的杀伤力在于,它把举证责任推回了挑战者。什么是scaling曲线?

        简单说,就是「投入更多算力和数据,AI能力提升多少」。

        Transformer统治近十年,最核心的原因不是它没缺陷,而是它的scaling曲线至今没被任何架构超越。

        这是OpenAI敢砸几十亿美元训练GPT、Anthropic持续扩大Claude规模的底气。

        Kaiser的逻辑极其清晰:你说Transformer有五个问题?

        我同意。但有问题的东西和应该被替换的东西之间,有一道鸿沟。

        跨过它,你需要的不是五篇论文,是一条更好的scaling曲线。

        然后,他展开了更具体的辩护,而且带着工程现场的铁锈味。

        并行性是硬道理。上周,在最新的Nvidia硬件上,Kaiser重新实现了Transformer和几个老式RNN,并做了对比。

        非常小的GRU,比一个大得多的Transformer还要慢50倍。

        RNN确实优美,但它的顺序执行特性在当前硬件上就是一场灾难。

        如果真存在一种更好的架构,你需要用50倍的时间去证明它——而大多数实验室没有这个耐心。

        十年的工程积累。不只是GPU优化,编译器、训练框架(PyTorch、JAX)、推理引擎(vLLM、TensorRT-LLM)、量化工具——

        整个AI工程栈都围绕Transformer搭建。换架构意味着这一切都要重来。

        隐式的「持续学习」,早已发生。Kaiser指出,Transformer在大规模预训练后,前向传播中表现出的上下文学习(In-Context Learning),在数学上其实完美模拟了反向传播中的梯度下降。

        换句话说,你们说它不会学,它其实在以另一种方式偷偷地学。

        他的辩护不是「Transformer永远是最优解」,而是「Transformer现在是最优解,除非你证明不是」。

        然后他甩出一句让对面哑口无言的话:也许找到下一个架构的,恰恰会是Transformer本身——而不是你们。

        全场笑声。但大家都听出来了:这是认真的。AI:无人可挡的光明未来Kaiser的结束陈词,没有说「Transformer永远是最优解」。

        他说的是:「目前,Transformer仍然赢。」「目前」这个词,是他留给挑战者的唯一缝隙。

        更微妙的是,他亲手交出了一件本属于自己阵营的武器。

        后Transformer阵营此前最大的短板,是「缺乏大算力的工程和硬件验证」——

        新架构跑得慢、没人愿意为它改芯片。但Kaiser自己承认,这道壁垒正在被瓦解:现在,AI Agent已经学会了写极高难度的CUDA和Triton核函数。

        即便一个新架构最初运行慢50倍,你只需要把代码丢给Agent,它就能在短时间内帮你优化出几乎能榨干GPU算力的专用内核。

        硬件彩票的壁垒,正在被智能体开发生态自己砸碎。这意味着,一旦有人在百万Token、千万Token的极长上下文任务上,用Post-Transformer架构跑出一条更漂亮的困惑度曲线,哪怕只有一点点优势,也会在scaling的放大镜下,形成对旧帝国的致命一击。

        Kaiser甚至主动提议:应该建立一个统一的测试标准——

        用困惑度衡量所有架构在同等条件下的学习能力。「我们应该在这件事上达成共识,然后各自去证明自己的架构更好。」这句话的潜台词是:挑战赛正式开始。

        而Jones的最后一句话更直接:今天我没有得到任何理由让我怀疑自己的信念:有更好的东西存在。

        当那个突破到来,我们所有人都会进入后Transformer时代,Łukasz也不例外——因为他届时别无选择。

        这场「拳击赛」看似戏谑,但它的胜负直接决定了Claude、ChatGPT等硅谷双雄的底层地基是否需要被全部推倒重建。

        如果后Transformer(Post-Transformer)阵营拥有更优越的Scaling Law(缩放定律)曲线,整个人类通往AGI的物理路线图都将被改写。

        参考资料:https://x.com/probnstat/status/2057522470760914957?s=20https://www.youtube.com/watch?v=hCjoMLuCuLQ编辑:大卫秒追ASI⭐点赞、转发、在看一键三连⭐点亮星标,锁定新智元极速推送!
🔗 原文链接:http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652703130&idx=2&sn=cf832a011fcf4885a0d9b193c7ae11af&chksm=f0ac6ddb6f6240a143cbad07d3d8275af141c04e22e64f967261a79c021d1ed5c3bcff5f71d2
← 返回列表