英伟达,最“大”对手来了
        本文作者 | 弗雷迪数据支持 | 勾股大数据(www.gogudata.com)英伟达的真正“大”对手来了。

        5月14日,Cerebras以488亿美元的估值,超额认购超过20倍登陆纳斯达克。

        据说这是今年来全球最大估值规模的IPO。要知道,就在8个月前,这家公司估值还只有81亿美元。

        现在等于翻了6倍,可见现在的市场对于AI铲子股究竟有多疯狂。

        AI推理是时代来了,但英伟达的GPU不再是唯一解。

        市场凭什么认为Cerebras,能够撼动英伟达的地位?

        01推理新王2026年,随着推理需求大爆发,传统GPU架构在推理场景的物理瓶颈愈发凸显,而Cerebras晶圆级芯片,为破解这一难题提供了颠覆性方案。

        黄仁勋在GTC2026上明确提出:AI推理拐点已至。

        据德勤数据,2023年,AI算力支出还是训练占60%,推理占40%,但两年后,这个比例几乎都要翻过来了,推理预计将占企业AI预算的85%。

        推理大模型还在持续放大这一趋势。据a16z对100万亿token数据的研究,2025年推理模型的token消耗份额从近乎归零飙升至总算力的半数以上。

        每一次模型升级,都在成倍放大推理的算力消耗。GPU推理有一个结构性弱点。

        要理解它,需先明确LLM推理的两大核心阶段:Prefill(预填充)与Decode(解码)。

        Prefill阶段负责处理用户提示词,支持并行计算,GPU很擅长,因此这阶段GPU效率表现优异。

        而Decode阶段是逐一生成token,属于串行运算,后一个token的生成必须等待前一个完成。

        且每生成一个token,都需要完整读取全部模型权重与KVCache缓存,数据搬运成本极高、重复损耗严重。

        以70B参数模型为例,其权重约140GB,叠加对话过程中持续膨胀、可达数十GB的KVCache,庞大的数据量进一步加重了GPU的运算与搬运负担。

        也就是说,GPU推理低效的核心,并非算力不足,而是传统架构物理局限导致的内存墙问题。

        这就是AI行业的核心“内存墙”——算力增长远快于内存带宽增长,计算性能被数据搬运卡住了。

        数据显示,算力每两年提升3倍,HBM带宽仅提升1.6倍;十年维度下,算力暴涨1000倍,带宽仅提升10倍,这相当于买了一张超级计算卡,实际跑推理的时候98%的时间在发呆。

        性能剪刀差持续扩大,就导致了架构矛盾日益凸显。据HuggingFace Blog分析,B200在batch等于1时,tensor core空闲超过99%。

        这个痛点也体现在英伟达核心营收上。黄仁勋公开确认,其数据中心业务65%收入来自推理场景,意味着英伟达最核心的营收来源,恰恰是GPU架构效率最低的场景。

        这也是为什么英伟达要斥资200亿美元去收购Groq的原因。

        侧面印证传统GPU无法适配高端推理需求,行业亟需专用推理架构。

        在此背景下,Cerebras跳出传统GPU设计逻辑,以晶圆级计算架构给出了破局方案。

        其核心产品WSE-3摒弃芯片切割模式,将整片300mm硅晶圆作为单一处理器,集成90万个AI核心、搭载44GB片上SRAM,官方带宽达21PB/s,是B200 8TB/s带宽的2625倍,实现了跨量级的性能突破。

        也就是说,这是真正物理意义上的超大芯片,所以说它是英伟达的“大”对手,确实没毛病。

        晶圆级计算75年没人做出来,不是没人想过,是工程上做不到。

        Cerebras解了三个难题。第一,突破光刻工艺极限。

        传统光刻单次曝光最大面积仅26mm×33mm,远小于晶圆尺寸。

        Cerebras联合台积电研发“划线桥接”技术,复用晶圆划线区域延伸金属沉积路径,让通信网络无缝覆盖整片晶圆,彻底消除芯片边界与跨芯片延迟。

        第二,解决大芯片缺陷。虽然Cerebras把芯片做得极大,但它把每个AI核心做到了只有0.05平方毫米,约等于H100 SM核心面积的1%。

        单个缺陷只废掉0.05平方毫米,而不是6平方毫米。

        据Cerebras官方博客,WSE-3的缺陷容忍度是GPU的100倍。

        额外加1%到1.5%的冗余核心做替换。第三,攻克超大功率供电散热难题。

        WSE-3功耗达23kW,需输送超2万安培电流。Cerebras采用上置垂直供电、底部水冷散热方案,将整片晶圆温差控制在20℃以内,保障芯片高负载稳定运行。

        据实测数据,Cerebras WSE-3对最佳GPU/云方案,四个主流模型全部领先。

        Llama 3.3 70B差距最大,2140对120,18倍。

        Llama 4 Maverick 400B差距最小,2500对1000,超过2倍。

        凭借出奇快的推理速度,Cerebras的估值一路水涨船高。

        根据S-1融资轮次数据,公司估值八个月涨了六倍。从81亿美元到230亿再到488亿。

        并且,公司的商业前景也得到了科技巨头的背书。OpenAI一上来就直接跟它签了超百亿美元的多年合同。

        还有AWS也选择Cerebras作为Bedrock推理加速层。

        整体而言,Cerebras以颠覆性的晶圆级架构,发起了对GPU行业霸主的技术挑战。

        这套突破传统束缚的技术方案,打破了长期的GPU算力垄断,想象空间广阔,也让公司估值从一开始就偏离了正常的比较范围。

        02估值合理吗?根据S-1文件,CerebrasIPO估值对应2025年5.1亿美元营收,约95倍收入倍数。

        据StockMaven数据,NVIDIA大约25倍,Cerebras是NVIDIA的近4倍。

        但盈利能力上Cerebras显然还没有证明自己,NVIDIA财报显示其毛利率75%到80%,Cerebras只有39%。

        公司2025年GAAP净利润2.378亿美元,里面有3.63亿非现金会计收益(远期合约负债公允价值变动)。

        实际Non-GAAP亏损7570万美元。毛利率从42.3%滑到39.0%,还在往下走。

        这也说明了,公司的估值逻辑本身已经超出了芯片公司的标准,市场更像是把它当成了一种稀缺的AI基础设施来定价。

        但是翻一翻账,估值给的太高还不是最大的问题。根据S-1经审计财务报告附注,2025年公司86%的收入来自两个阿联酋实体。

        MBZUAI占62%,G42占24%。美国收入反而降了34%。

        OpenAI的百亿美元合同目前是该公司最大的一笔潜在收入。

        但事情还要更加复杂,OpenAI同时扮演了四个角色:客户、债权人,潜在股东,还有个人投资者,Altman等人做过天使投资人。

        数据还显示,246亿美元订单积压中,只有15%在2026到2027年确认。

        43%在2028到2029年。一旦交付不了产能,OpenAI有权终止合同并要求偿还贷款。

        虽然签了百亿合同,但OpenAI在同时押注多条路线,Cerebras只是其中一条。

        去年10月,OpenAI与AMD签署了6GW部署协议。

        实际上,每家科技巨头都在推理上多方下注,没有一家把Cerebras当成主力路线孤注一掷。

        亚马逊跟Cerebras合作,但也只让它负责decode加速层。

        主力推理用的依然是自研Trainium3。近几年,推理芯片创业公司的归宿也佐证了这一点。

        Groq被NVIDIA收购,Graphcore被SoftBank收购,UntetherAI被AMD收购。

        而Cerebras是唯一独立IPO的推理独角兽。对于科技巨头而言,Cerebras又何尝不是补丁,只是补丁熬到了上市。

        再者,标称速度也有水分。Cerebras用了推测解码技术——

        让小模型先猜、大模型再验证,能快3倍。去掉技术加速,纯硬件对推理速度的支持没那么多。

        而且测试是在单用户条件下跑的,实际多用户并发时优势还会进一步缩水。

        更关键的是,Cerebras的44GB片上内存只够做"一问一答"式的快速推理。

        但推理市场增长最快的方向是AIAgent——需要长对话、大上下文,内存需求远超44GB。

        据Stratechery判断:内容在片上内存内,Cerebras速度惊人;一旦超出,就不划算了。

        Cerebras未来能在推理市场拿下多大份额,取决于晶圆级架构能否突破44GB内存的天花板,从"一问一答"走向更复杂的推理场景。

        03尾声总的来说,"英伟达对手"这个定位,更多来自资本市场的叙事需求,支撑溢价的核心假设是"稀缺AI基础设施"。

        Cerebras能走多远,还是要看自身的稀缺性能否转换成更大的商业价值。

        拆开看,稀缺性的成立依赖于两个前提:其一,OpenAI百亿合同的交付执行。

        其二,晶圆级架构能否突破场景限制。尤其是后者,如果技术迭代停滞、应用场景难以拓展,那么一切的叙事都可能变成巨大的泡沫,沦为AI算力生态里的边角备胎。

        ▍往期回顾格隆汇声明:文中观点均来自原作者,不代表格隆汇观点及立场。

        特别提醒,投资决策需建立在独立思考之上,本文内容仅供参考,不作为任何实际操作建议,交易风险自担。
🔗 原文链接:http://mp.weixin.qq.com/s?__biz=MzI1ODI4Mjk1MQ==&mid=2247545792&idx=1&sn=0481b42a1b922810c57fbcdc72f134ec&chksm=eb9525bb147f901052fd707696e3f6c7f88287ca1eb0ea31fe1e4374074f38f76167017ee1ee
← 返回列表