宁静致远

        在6月5日的腾讯云AI下半场大会上，腾讯集团高级执行副总裁汤道生，和腾讯首席AI科学家姚顺雨做了个对话。

        此次谈话围绕腾讯如何理解AI下半场展开：当大模型的方法论逐渐成熟，竞争重点正在从单点模型能力，转向真实场景、产品反馈、上下文网络和Agent工程化落地。

        汤道生与姚顺雨的对话，也透露出腾讯内部，正在用模型与产品Co-Design对内部进行重组。

        我们整理了两人的所有谈话，并将其归纳为了15个核心观点。

        关于AI下半场1. “下半场”被滥用了，姚顺雨加入腾讯的原因是腾讯“有问题”，有真正的AI需要的好问题姚顺雨表示，“AI下半场”这个概念有些被滥用。

        他认为，过去几十年AI更重要的是寻找好方法，比如为了围棋做AlphaGo，为了翻译做特定模型。

        但在预训练和后训练成熟后，大模型变成了一把“万能的锤子”，可以解决各种问题。

        于是，真正稀缺的开始变成“好问题”。模型能力具备通用性之后，企业需要判断应该把它用在哪里，解决什么问题，产生什么价值。

        这也是姚顺雨加入腾讯一个很重要的原因。“腾讯有很多好的问题，有很多很多产品。”

        姚顺雨说，好的产品能够解决第一个问题，就是做了好的预训练和后训练之后，到底要把它应用在什么样的场景，它的价值在哪里。

        2. 环境很重要，context更重要，竞争壁垒有时来自于有没有最原始的输入姚顺雨强调了环境的重要性。

        没有好的环境，Agent就没有办法去做各种各样的事情。

        如果你没有一个点外卖的tool，那你就没有办法去点外卖。

        但最重要的是context。姚顺雨说，无论企业还是个人，越来越重要的事情是context。

        因为模型越来越擅长把一个非常复杂的输入变成一个输出，很多时候你的竞争壁垒就来自于你有没有那个最原始的输入。

        你知不知道这个人他在干什么，你知不知道这个企业的各种各样的信息。

        这一点，腾讯有非常强的优势。3. 在AI下半场最重要的目标是在中国建立长期的、基于AGI的组织姚顺雨个人的目标是，在中国建立一个长期的、基于AGI的组织。

        他提到，今天的AI主要有三个部分。首先是foundation的部分，怎么样去把预训练和后训练这些最基础的东西做得非常solid。

        第二部分是产品，怎么去把这样的技术真正为人和社会产生价值。

        第三就是frontier，怎么去探索新的研究范式，探索新的机会。

        最重要的是，要构建一个非常均衡的、像三角形一样的组织。

        对于做foundation来说，第一最重要的是有充足资源，第二就是需要正确的做事的方式。

        对于产品来说，有好的产品的sense，有这种做产品的人是至关重要的。

        第三个，在中国今天所做的前沿探索不够多，所以姚顺雨希望能把frontier exploration的精神能更多地注入到组织中。

        4. 腾讯追求模型与产品Co-Design，但姚顺雨认为一切的前提依然是模型谈到腾讯内部高频提到的Co-Design，姚顺雨认为，第一前提是模型本身要做得扎实。

        预训练是相对product-agnostic的事情，它提供可泛化的foundation，能够让各种下游任务持续受益。

        后训练方面，最重要的是设立好正确的eval。姚顺雨吐槽，国内可能有一个不太好的倾向，就是比较喜欢刷榜。

        但更应该关心的是，如何实事求是地基于产品、基于真正的应用去构造更加真实的eval。

        实用性的价值是大于刷榜价值的。这一点上，腾讯做了大量工作，跟各种各样的产品进行了深度的Co-Design。

        姚顺雨说，Co-Design很关键的一点是要产生相互的信任，这一点腾讯做了大量工作去取得互信。

        怎么把产品的数据用好，怎么把这种回流用好，怎么把eval做好，这里有很多细节。

        5. 真实产品反馈能发现benchmark看不到的问题姚顺雨也不否认benchmark的价值，但相比之下，真实世界的数据至少有三类价值。

        第一，发现榜单无法暴露的底线问题。姚顺雨说，腾讯想要发一个preview模型，最重要的目的之一，就是希望能获得真实世界的反馈，修复各种榜单中没法发现的底线问题。

        这一点会在正式版上有非常大的改进。第二，理解真实用户的prompt distribution。

        因为现实用户的问题往往模糊、短促、多轮追问，而benchmark题目通常更精确、更单轮。

        比如benchmark上面的题目可能都是非常精确的，有非常长的concrete description，而且一般来说是一个单轮问题。

        但是在现实场景中，大家问的问题可能都是比较模糊的，可能就一两句话，然后他会不停追问。

        这些setup上的difference，就可以启发怎么去更好地做这样的训练。

        第三，产品本身还可能启发新的评测方向，推动尚未被很好定义的能力领域。

        姚顺雨说，甚至可以在这些产品上获得一些灵感，去推进现在还没有的榜单，或者还没有被很好定义的领域。

        比如腾讯最近做了很多Context learning的工作，包括元宝的反馈也给了很大的启发和帮助。

        关于模型泛化6. 以模型之名，腾讯的不同产品终于有了点“互相流通”姚顺雨指出，LLM时代与过去AI的根本差异是泛化性。

        过去做翻译模型，只需要翻译数据。做围棋程序，只需要围棋数据。

        但今天即便只做Coding Agent，也需要聊天、搜索、指令遵循、推理等多种能力。

        因此，拥有多个产品场景的公司会具备体系化优势。姚顺雨说，和元宝的Co-Design可以使模型产生很强的聊天和搜索能力。

        但这样的能力又可以被迁移到ima、WorkBuddy等其他产品。

        所以这些产品能够提供不同的数据，而这些数据之间又可以相互扩散、相互迁移，形成一个像网络一样的体系。

        这一点的价值会越来越重要。此前，腾讯的打法被外界形容为“赛马”。

        不同业务做相同方向的产品，彼此竞争，很少有形成合力的感觉，现在似乎以AI之名开始有所改变。

        7. Hy3的核心变化是重建基础设施、重做数据，并依赖大量taste-driven的决策对于Hy3 Preview，姚顺雨说“大模型没有什么秘密”。

        要把infrastructure做好，把数据做好，算法部分反而相对简单。

        他提到，混元3主要做了几方面改变。一是重建了预训练和强化学习基础设施。

        二是对数据做了很大改变，包括定义更真实的问题、丰富data taxonomy、提高数据质量，这是一个永无止境的追求。

        三是许多关键决策没有清晰公式，需要在招人、模型节奏、资源取舍中不断做trade-off，本质上是一个很taste-driven的过程。

        8. 元宝与混元的合作，最难的部分不是技术，而是信任姚顺雨透露，元宝早期阶段，混元曾派出很强的算法骨干，帮助元宝先把DeepSeek的后训练做好。

        彼时混元自己的预训练模型还没有ready，不少算法同学一开始不理解。

        但姚顺雨认为，维护元宝这样的产品和DAU，对后续做模型和长期合作都很重要。

        所以当时其实很多同学也不理解，然后他需要去很努力地解释。

        但现在看起来，这些努力都是pay off。这样的一个动作，让产品和模型的同学意识到，模型的同学是真的在为产品着想。

        这个对于之后的合作，包括混元在元宝上成功的上线，起到了非常重要的作用。

        姚顺雨说，做模型的目标和产品的目标有很多align的部分，也有很多不align的部分。

        模型的人希望能力越强越好，但产品的人希望用户的需求满足得越好。

        所以天然有很多不align的部分。很重要的一点就是要换位思考的能力。

        当然有很多技术的部分可以探讨，但可能最难的部分其实反而是怎么样去建立信任，怎么样换位思考。

        9. AI时代做产品的范式变了，从“预制菜”变成开放式服务汤道生认为，做产品的第一性原理没有变，最终还是奔着用户到底有什么需求，怎么去解决他的痛点，怎么给用户或者客户创造价值。

        在不同的时代，甚至不同的行业，做一个产品还是需要能够给用户带来价值，他才会买单，才会使用。

        但是确实，在PC互联网、移动互联网时代做产品，跟今天在AI时代做产品，还是有蛮多不一样的地方。

        首先从范式的角度来看，在AI时代以前，做产品很多时候想的是通过功能来满足用户的需求。

        作为一个产品提供方、服务提供方，要想清楚提供怎样的能力，让用户可能通过界面、通过某些菜单去选择。

        这有点像预制菜，用户只能在里面点一样。但是在AI时代做产品，它这种开放式的服务形态会带来很不一样的要求和挑战。

        用户通过简单的交互方式，可能是自然语言，可能是语音。

        作为产品方，你也不知道用户会问什么，所以要充分利用模型能力去理解用户的需求。

        然后，通过今天大模型的推理能力、调用工具的能力，产品给模型提供各种各样可以使用的工具，来应对这种开放式的需求。

        汤道生说，今天AI时代做产品，对能力的要求更全面，也更难了。

        尤其今年，大部分代码都由AI生成。工程师可能会花更多时间去做设计、做架构设计，把写代码的工作交给AI，然后定期去指导一下、修正一下。

        测试也要左移，更前置地想清楚，针对各种案例、环境，以及对于开放式答案的一些要求，甚至alignment，怎么对齐用户所需要的风格。

        10. 姚顺雨的博士论文在2019年就预见了今天，但他觉得自己“想的还是不够大”姚顺雨透露，他重新读了自己的博士论文，感觉又回到了一个很远古的时代。

        他的博士论文的title叫做《Language Agent：from Next Token Prediction to Digital Automation》（语言智能体：从预测下一个Token到数字自动化）。

        那是2019年，七年前，那是GPT-2的时候，它当时只能做Next Token Prediction，而且它产生的可能一段话还不太连续，或者还有很多毛刺。

        所以当时人们是很难想象到，它会有一天成为一个改变世界的力量。

        当时姚顺雨的想象力比较狂野。他觉得GPT是一个非常优美的东西，吐下一个token是一个非常极简且非常通用的事情。

        他觉得它有一天潜力不仅仅是在于吐下一个token，而是在于把这个世界上所有的事情全部automate。

        他当时想的是digital automation，但是现在看起来也有可能是digital and physical automation。

        姚顺雨的博士期间主要做两部分。第一，如何建立一个Agent的方法论。

        如何把一个Next Token Prediction的机器变成一个Agent，变成一个自动化的机器。

        最重要的一篇工作可能是React。他还记得22年7月份的时候，某一天晚上，当他第一次把当时是Palm 2的API和自己手写的一个Wikipedia的API连在一起，然后它第一次可以基于这个网页回答问题，并且多轮的交互的时候，他当时感觉就像微弱的电灯丝突然亮了的感觉一样。

        据他所知，可能这是第一次人类把LLM和真正的互联网连在一起，并且去做这种多轮的交互。

        他当时的感觉这个可能在5年或者10年会改变这个世界。

        但是可能比想象中还要更快。包括当时第一次提出SWE-bench的时候，他觉得如果这个事情能做到，那很显然它会带来巨大的价值。

        当时可能是几百亿上千亿，但现在可能是数万亿，数十万亿，可能想的还是太小了。

        第二，怎么去定义Digital Automation的任务。

        比如说WebShop是第一个基于互联网的Web Agent的task。

        然后包括InterCode和SWE-bench是最早的Coding Agent这样的任务。

        现在看起来Agent的基础最重要的两个部分，确实是Web的Agent和Coding的Agent。

        姚顺雨说，他看博士论文的结尾，就是他在2024年的时候写的future work，第一个是train models for agent，第二个是safety and robust deployment，第三个是scientific discovery，第四个是怎么样去help human。

        他很感慨，说现在很幸运，确实在做当时列的future direction。

        可能想的还是不够大，当时已经觉得自己想的够大了，但可能还是不够大。

        关于Agent11. Agent与Coding Agent已成为模型公司的基础能力姚顺雨认为，今天Agent，尤其Coding Agent，有点像预训练一样，是每家模型公司都不得不做的基础能力。

        Coding Agent之所以本质，是因为当模型能控制file system、拥有container时，它就接近一个complete system。

        但他也强调，做好Coding Agent需要远远超过coding数据本身，还需要聊天、搜索、推理等综合能力。

        因为大模型最重要的点是泛化性。腾讯的做法会更强调体系全面化、线上回流，以及对新范式的探索。

        姚顺雨提到，即使可能今天Coding Agent也是最重要的事情，但腾讯还是会强调体系的全面化。

        他始终认为，真的要把Coding Agent做好，其实需要的远远不止Coding Agent的数据。

        也需要聊天、指令遵循、推理，各种各样不同的东西。第二，产品的作用越来越重要。

        如何利用好线上的回流，是一个每一个模型厂商都在应对和思考的问题。

        这里腾讯积累了很多Co-Design的这些经验会变得非常重要。

        第三，还需要更多想象力。无论是技术的演进，还是产品的演进，还是甚至下一个范式的演进，腾讯还是需要做一些探索性的，甚至不确定性的工作。

        12. 性价比的核心是performance，一次把简单任务做对比模型架构更重要汤道生提到，从产品侧来看，大家越来越多有token焦虑的声音，token成本持续爆发式增长。

        很多客户，甚至用户，包括身边同事，也在紧盯积分消耗或者token消耗。

        怎么可以让模型在解决某个问题、完成某一个任务时，token效率最高？

        姚顺雨认为，现在中国大家讨论性价比，可能更多讨论的是模型架构。

        但它其实是一个很复杂的体系。最重要的事情首先是performance。

        很多人跟他说，用一个更强的模型，有时候比用一个更弱的模型最后更省钱，因为你更快地把这个事情做对了，也省了人的精力。

        所以最重要的事情是performance。如果你的performance好，其实它就是性价比最关键的事情。

        尤其今年，很多简单任务的鲁棒性会变得更加重要。如何一次把很多相对简单的任务做对，这可能是性价比更关键的部分，而不仅仅是模型架构。

        第二部分是成本。成本本身也是性价比的一部分。第一是“性”，如果性能不好，性价比就很难成立。

        第二是“价”，也就是成本。成本上，中国其实是领先于世界的，腾讯做了大量工作去优化成本。

        成本里，可能最重要的事情是，怎么用一个更小的模型，把更高价值的任务做好。

        在这个基础上，当然架构创新、长文管理、脚手架都有很多需要做的事情。

        但姚顺雨个人看法是，如果能做一个相对较小的模型，同时又能够比肩大模型的性能，而且在大部分任务上做到很强的robustness，这可能在很多长程的上面提升一两个点的提升，可能在今天的中国更有价值。

        13. 不同场景的Agent需要不同的context，这是腾讯的优势汤道生说，腾讯做的Agent，针对不同场景有不同的产品形态。

        在Agent设计上面，很大程度是发挥好模型能力，当然模型在迭代它能力越强Agent需要做的工作越来越少。

        腾讯好几个产品在过去这段时间是随着模型能力加强，可以把产品，把Agent做的更简化，更多的给模型提供更多不同的工具，创造更多的skills，来让模型能够更高效的去完成任务。

        给模型提供更多的所谓记忆，用户过去使用一些习惯，能提取出来的一些用户preference的信息作为上下文。

        在Coding环境有相关的context给到模型，在Workbuddy里边办公协作，做个PPT，可能大家关注的内容或者该给到模型的context也会不一样。

        所以在做不同的Agent，汤道生觉得更重要是了解场景下什么内容，什么信息，是重要的，比较relevant的，能够跟模型配合好，让模型有它需要的信息，同时也发挥它的能力。

        14. AI时代的产品组织要更扁平化，每个工程师都是产品经理汤道生透露，他前阵子在帮Workbuddy做一个组织发文，看了一下他们那个非常扁平化的组织，跟过去的其他产品组织架构有很大差异。

        更多小团队三个人五个人，可能围绕某一个领域来做攻坚，而且有很多试验在里面，还要支持Infra做实验，让不同的小分队可以去探索然后再验证。

        因为试验大部分拿不到正向反馈，也要包容团队去试错，这种通过大量试验去提炼出对于用户流程，对于想要的这个结果有正向帮助，这个是今天做Agent，做原生AI产品，这个组织形态要能够比较好去支撑。

        另外，原来可能有很多工程师有很多时间花写代码，但是今天毫无疑问他们这些工作可以交给AI了。

        所以会看到更多角色的融合，大家都是产品经理，都要去了解透彻用户需求，以及设计出想要的产品形态。

        每一个工程师更像一个有想法的leader，驱动多个Coding Agent，针对想要的产品需求去做研发、开发。

        同时要参与评测、测试，比较前置，也用好AI能力，把这些质量保证工作，对齐工作要做到前面来。

        15. 回应“腾讯AI慢了”，下半场刚刚开始，AI会是长期且多元的游戏对于外界“腾讯慢了”的讨论，姚顺雨给出两个判断。

        第一，AI是长期游戏，而不是短期游戏。在硅谷大家蔓延很多情绪，说两年后所有人都要失业，AI要取代所有人的工作，要赶快赚两年钱退休。

        但很显然腾讯的判断AI是一个长期游戏，其实AI刚开始，下半场才刚刚开始。

        姚顺雨不认为ChatGPT和Claude Code会是唯一的super App，他觉得那是一个非常灰暗的世界，肯定会有源源不断新的机会诞生。

        可能今天就像是70年代PC刚刚产生的时候，还有很多很多事情需要做。

        第二，AI会变得更多元，而不是沿着单一主线前进。因为确实过去几年大家能看到的是Pre-training、post training，然后Agent，Coding Agent，似乎有一个非常清晰的主线，这个主线是所有人都在做一样的事情，都在copy，这也是非常灰暗的事情。

        但到底未来变得更单一还是更多元？姚顺雨个人看法会变得更多元，毫无疑问Coding Agent生产力会变得更加重要，但这个世界还有很多空间没有被填满，多模态、具身智能，很多很多新的事情都在发生，或者刚刚发生。

        所以从这个角度来说，如果认为下半场刚刚开始，可能确实不是完了。

        过去模型、产品做了很多探索，走很多弯路，姚顺雨觉得这是正常的，如果没有做过一个事情，第一次做肯定有曲折。

        但可能更重要的事情是能不能诚实面对自己，能不能Be Real，能不能够去看到feedback然后去改变，能不能够保持耐心，这个事情是下半场最重要的事情。

        汤道生也回应说，大家对于腾讯经常喜欢挑某一个点来批评，当然腾讯也很欢迎大家给更高的要求。

        腾讯是一个非常多业态的公司，有很多产品分布在很多的赛道，同时也有很多的团队在推进不同的项目、事情。

        所以毫无疑问，在这样一个复杂的组织里面有一些地方可能做得快了，有的地方做得慢了，有一些地方可能会做失败，在探索。

        所以这些提醒都非常好，确实有一些地方可以做得更好。

        但就像姚顺雨说的，这是一个长跑，这是一个马拉松，腾讯还是有非常丰富的场景。

        就姚顺雨一开始提到选择腾讯，因为AI需要Context，模型需要很多的这些上下文，其实腾讯在过去多年不同产品，在不同赛道的这些积累，其实都是可以针对每一个场景去为模型提供有用的信息，提供这些Context来发挥价值。

        在这样一个长跑，汤道生相信模型会不断迭代，用户的需求也在不断变化，也会有新的产品形态出现。

        比如说今年年初对Agent这一波热潮也反应比较快。

        同时也有像WorkBuddy这样的智能体产品，其实也是几年前开始做的产品，沿着原来做Coding、CodeBuddy，慢慢看到非程序员也有很强的需求，也能比较快去应对，今天也听到很多客户对于不同产品怎么去组合起来有非常高的期待。

        欢迎在评论区留言~如需开白请加小编微信：dongfangmark

🔗 原文链接：http://mp.weixin.qq.com/s?__biz=MzI2NjU1MTcwMA==&mid=2247562206&idx=1&sn=80e1d4e4d423d8804ef84be6b37ea953&chksm=ebf78110e8ad4758d7386c4cb46a5a58f6cab150f20f1587f016bce54012985cbf96686888be