宁静致远

        本文作者 | 弗雷迪数据支持 | 勾股大数据（www.gogudata.com）英伟达的真正“大”对手来了。

        5月14日，Cerebras以488亿美元的估值，超额认购超过20倍登陆纳斯达克。

        据说这是今年来全球最大估值规模的IPO。要知道，就在8个月前，这家公司估值还只有81亿美元。

        现在等于翻了6倍，可见现在的市场对于AI铲子股究竟有多疯狂。

        AI推理是时代来了，但英伟达的GPU不再是唯一解。

        市场凭什么认为Cerebras，能够撼动英伟达的地位？

        01推理新王2026年，随着推理需求大爆发，传统GPU架构在推理场景的物理瓶颈愈发凸显，而Cerebras晶圆级芯片，为破解这一难题提供了颠覆性方案。

        黄仁勋在GTC2026上明确提出：AI推理拐点已至。

        据德勤数据，2023年，AI算力支出还是训练占60%，推理占40%，但两年后，这个比例几乎都要翻过来了，推理预计将占企业AI预算的85%。

        推理大模型还在持续放大这一趋势。据a16z对100万亿token数据的研究，2025年推理模型的token消耗份额从近乎归零飙升至总算力的半数以上。

        每一次模型升级，都在成倍放大推理的算力消耗。GPU推理有一个结构性弱点。

        要理解它，需先明确LLM推理的两大核心阶段：Prefill（预填充）与Decode（解码）。

        Prefill阶段负责处理用户提示词，支持并行计算，GPU很擅长，因此这阶段GPU效率表现优异。

        而Decode阶段是逐一生成token，属于串行运算，后一个token的生成必须等待前一个完成。

        且每生成一个token，都需要完整读取全部模型权重与KVCache缓存，数据搬运成本极高、重复损耗严重。

        以70B参数模型为例，其权重约140GB，叠加对话过程中持续膨胀、可达数十GB的KVCache，庞大的数据量进一步加重了GPU的运算与搬运负担。

        也就是说，GPU推理低效的核心，并非算力不足，而是传统架构物理局限导致的内存墙问题。

        这就是AI行业的核心“内存墙”——算力增长远快于内存带宽增长，计算性能被数据搬运卡住了。

        数据显示，算力每两年提升3倍，HBM带宽仅提升1.6倍；十年维度下，算力暴涨1000倍，带宽仅提升10倍，这相当于买了一张超级计算卡，实际跑推理的时候98%的时间在发呆。

        性能剪刀差持续扩大，就导致了架构矛盾日益凸显。据HuggingFace Blog分析，B200在batch等于1时，tensor core空闲超过99%。

        这个痛点也体现在英伟达核心营收上。黄仁勋公开确认，其数据中心业务65%收入来自推理场景，意味着英伟达最核心的营收来源，恰恰是GPU架构效率最低的场景。

        这也是为什么英伟达要斥资200亿美元去收购Groq的原因。

        侧面印证传统GPU无法适配高端推理需求，行业亟需专用推理架构。

        在此背景下，Cerebras跳出传统GPU设计逻辑，以晶圆级计算架构给出了破局方案。

        其核心产品WSE-3摒弃芯片切割模式，将整片300mm硅晶圆作为单一处理器，集成90万个AI核心、搭载44GB片上SRAM，官方带宽达21PB/s，是B200 8TB/s带宽的2625倍，实现了跨量级的性能突破。

        也就是说，这是真正物理意义上的超大芯片，所以说它是英伟达的“大”对手，确实没毛病。

        晶圆级计算75年没人做出来，不是没人想过，是工程上做不到。

        Cerebras解了三个难题。第一，突破光刻工艺极限。

        传统光刻单次曝光最大面积仅26mm×33mm，远小于晶圆尺寸。

        Cerebras联合台积电研发“划线桥接”技术，复用晶圆划线区域延伸金属沉积路径，让通信网络无缝覆盖整片晶圆，彻底消除芯片边界与跨芯片延迟。

        第二，解决大芯片缺陷。虽然Cerebras把芯片做得极大，但它把每个AI核心做到了只有0.05平方毫米，约等于H100 SM核心面积的1%。

        单个缺陷只废掉0.05平方毫米，而不是6平方毫米。

        据Cerebras官方博客，WSE-3的缺陷容忍度是GPU的100倍。

        额外加1%到1.5%的冗余核心做替换。第三，攻克超大功率供电散热难题。

        WSE-3功耗达23kW，需输送超2万安培电流。Cerebras采用上置垂直供电、底部水冷散热方案，将整片晶圆温差控制在20℃以内，保障芯片高负载稳定运行。

        据实测数据，Cerebras WSE-3对最佳GPU/云方案，四个主流模型全部领先。

        Llama 3.3 70B差距最大，2140对120，18倍。

        Llama 4 Maverick 400B差距最小，2500对1000，超过2倍。

        凭借出奇快的推理速度，Cerebras的估值一路水涨船高。

        根据S-1融资轮次数据，公司估值八个月涨了六倍。从81亿美元到230亿再到488亿。

        并且，公司的商业前景也得到了科技巨头的背书。OpenAI一上来就直接跟它签了超百亿美元的多年合同。

        还有AWS也选择Cerebras作为Bedrock推理加速层。

        整体而言，Cerebras以颠覆性的晶圆级架构，发起了对GPU行业霸主的技术挑战。

        这套突破传统束缚的技术方案，打破了长期的GPU算力垄断，想象空间广阔，也让公司估值从一开始就偏离了正常的比较范围。

        02估值合理吗？根据S-1文件，CerebrasIPO估值对应2025年5.1亿美元营收，约95倍收入倍数。

        据StockMaven数据，NVIDIA大约25倍，Cerebras是NVIDIA的近4倍。

        但盈利能力上Cerebras显然还没有证明自己，NVIDIA财报显示其毛利率75%到80%，Cerebras只有39%。

        公司2025年GAAP净利润2.378亿美元，里面有3.63亿非现金会计收益（远期合约负债公允价值变动）。

        实际Non-GAAP亏损7570万美元。毛利率从42.3%滑到39.0%，还在往下走。

        这也说明了，公司的估值逻辑本身已经超出了芯片公司的标准，市场更像是把它当成了一种稀缺的AI基础设施来定价。

        但是翻一翻账，估值给的太高还不是最大的问题。根据S-1经审计财务报告附注，2025年公司86%的收入来自两个阿联酋实体。

        MBZUAI占62%，G42占24%。美国收入反而降了34%。

        OpenAI的百亿美元合同目前是该公司最大的一笔潜在收入。

        但事情还要更加复杂，OpenAI同时扮演了四个角色：客户、债权人，潜在股东，还有个人投资者，Altman等人做过天使投资人。

        数据还显示，246亿美元订单积压中，只有15%在2026到2027年确认。

        43%在2028到2029年。一旦交付不了产能，OpenAI有权终止合同并要求偿还贷款。

        虽然签了百亿合同，但OpenAI在同时押注多条路线，Cerebras只是其中一条。

        去年10月，OpenAI与AMD签署了6GW部署协议。

        实际上，每家科技巨头都在推理上多方下注，没有一家把Cerebras当成主力路线孤注一掷。

        亚马逊跟Cerebras合作，但也只让它负责decode加速层。

        主力推理用的依然是自研Trainium3。近几年，推理芯片创业公司的归宿也佐证了这一点。

        Groq被NVIDIA收购，Graphcore被SoftBank收购，UntetherAI被AMD收购。

        而Cerebras是唯一独立IPO的推理独角兽。对于科技巨头而言，Cerebras又何尝不是补丁，只是补丁熬到了上市。

        再者，标称速度也有水分。Cerebras用了推测解码技术——

        让小模型先猜、大模型再验证，能快3倍。去掉技术加速，纯硬件对推理速度的支持没那么多。

        而且测试是在单用户条件下跑的，实际多用户并发时优势还会进一步缩水。

        更关键的是，Cerebras的44GB片上内存只够做"一问一答"式的快速推理。

        但推理市场增长最快的方向是AIAgent——需要长对话、大上下文，内存需求远超44GB。

        据Stratechery判断：内容在片上内存内，Cerebras速度惊人；一旦超出，就不划算了。

        Cerebras未来能在推理市场拿下多大份额，取决于晶圆级架构能否突破44GB内存的天花板，从"一问一答"走向更复杂的推理场景。

        03尾声总的来说，"英伟达对手"这个定位，更多来自资本市场的叙事需求，支撑溢价的核心假设是"稀缺AI基础设施"。

        Cerebras能走多远，还是要看自身的稀缺性能否转换成更大的商业价值。

        拆开看，稀缺性的成立依赖于两个前提：其一，OpenAI百亿合同的交付执行。

        其二，晶圆级架构能否突破场景限制。尤其是后者，如果技术迭代停滞、应用场景难以拓展，那么一切的叙事都可能变成巨大的泡沫，沦为AI算力生态里的边角备胎。

        ▍往期回顾格隆汇声明：文中观点均来自原作者，不代表格隆汇观点及立场。

        特别提醒，投资决策需建立在独立思考之上，本文内容仅供参考，不作为任何实际操作建议，交易风险自担。

🔗 原文链接：http://mp.weixin.qq.com/s?__biz=MzI1ODI4Mjk1MQ==&mid=2247545792&idx=1&sn=0481b42a1b922810c57fbcdc72f134ec&chksm=eb9525bb147f901052fd707696e3f6c7f88287ca1eb0ea31fe1e4374074f38f76167017ee1ee