一年数千亿美元,AI数据中心投资会崩溃吗?
        我是芯片超人花姐,入行20年,有50W+芯片行业粉丝。有很多不方便公开发公众号的,关于芯片买卖、关于资源链接等,我会分享在朋友圈。

        扫码加我本人微信👇作者简介:汤之上隆先生为日本精密加工研究所所长,曾长期在日本制造业的生产第一线从事半导体研发工作,2000年获得京都大学工学博士学位,之后一直从事和半导体行业有关的教学、研究、顾问及新闻工作者等工作,曾撰写《日本“半导体”的失败》、《“电机、半导体”溃败的教训》、《失去的制造业:日本制造业的败北》等著作。

        AI数据中心的投资,如今已明显达到异常水平。Microsoft、Google、Amazon、Meta等超大规模云服务商(Hyperscaler)正竞相投入每年数千亿美元的资本支出。

        据TrendForce的报道,2026年上述四大超大规模云服务商的数据中心投资总额,最高将达7550亿美元(图1)。

        若以1美元兑160日元换算,约合120.8万亿日元,超过2025年度日本国家预算(一般会计总额约115万亿日元规模,来源:财务省)的水平。

        图1:四大超大规模云服务商对数据中心的疯狂资本支出;来源:根据TrendForce数据等由笔者制作之所以需要如此巨额的投资,是因为搭载在AI服务器上的AI半导体价格正在飙升。

        以AI半导体的代表产品——英伟达(NVIDIA)的GPU为例,在其当前的主力架构“Blackwell”中(按1美元=160日元计算),单块GPU“B200”的价格在500万至800万日元之间,搭载8个B200的服务器“DGX B200”售价为4000万至7000万日元,基于该服务器的AI机架“GB200 NVL72”则达到数亿至10亿日元级别(图2)。

        正因为需要将大量此类AI机架并排部署以构建AI数据中心,各超大规模云服务提供商的投资额才会超过1000亿至2000亿美元。

        图2:NVIDIA GPU的AI服务器及数据中心价格结构(Hopper、Blackwell、Rubin); 来源:根据NVIDIA技术发布及产品资料、TSMC相关报道、Micron Technology与SK hynix的HBM发布、各类行业分析(Reuters、SemiAnalysis、TrendForce等)由作者制作(价格及部分配置为推算)然而,这已超出了“增长投资”这一术语所能涵盖的范畴,反而呈现出一种更接近于“为竞争而进行的军备竞赛”的态势。

        在这种情况下,有一个至关重要却几乎未被正面讨论的问题。

        那就是“这项投资真的能够收回成本吗”这一极其基本且本质的问题。

        在AI热潮中,人们往往只强调需求强度和技术创新,但在资本密集型产业中,最终被问及的始终是投资回报的成败。

        本文将AI数据中心的成本结构分解为GPU、高带宽内存(HBM)、电力三个要素,并进一步利用Microsoft和Google的实际披露数据,对当前AI投资的收益结构进行定量分析。

        在此基础上,尝试推算在哪个时间节点将陷入无法回收的境地,即所谓"崩溃临界线"。

        此外,本文的分析以GPU基础设施按时计费的直接收益为对象,不包含AI所带来的间接收益效果(如搜索广告质量提升、SaaS附加价值增加等)。

        请读者在理解这一前提的基础上阅读本文。若先行揭示结论:美国各超大规模云服务商对AI数据中心近乎疯狂的投资,极有可能已经破产。

        用动画《北斗神拳》中拳四郎的名言来说,就是“你已经死了”。

        01从Microsoft与Google看投资规模的实态图3以定量方式呈现了从Microsoft与Google案例中所见的投资规模实态。

        基于该数据,我们可以看出Microsoft以及Alphabet旗下Google的数据中心投资已达到何等异常的水平。

        图3:从Microsoft与Google看投资规模的实态;来源:根据Microsoft FY2025年度报告、Alphabet Earnings Call FY2025数据由笔者制作1-1)Microsoft的情况根据Microsoft 2025财年年度报告,资本支出(固定资产的增加)已达645亿美元(来源:Microsoft Form 10-K, FY2025)。

        此外,公司说明以AI基础设施为中心的投资有望超过800亿美元(来源:Microsoft官方发布, 2025年)。

        将这一规模与Microsoft 云业务的销售额1680亿美元(来源同上)相比较,资本支出约占销售额的38%,按公司披露数据计算则约为48%。

        通常情况下,在稳定的基础设施业务中,资本支出超过销售额30%的情况极为罕见,这一水平极为异常。

        更为重要的是,折旧费用已达220亿美元(来源同上)。

        这意味着过去投资的负担已开始影响损益,未来数年间这一负担持续增加的可能性极高。

        此外,如前图1所示,2026年Microsoft的资本支出预计将比上年增长约2.4倍,达到1900亿美元。因此,可以预测Microsoft的损益将大幅向负方向移动。1-2)Google的情况另一方面,拥有Google的Alphabet进行了更为激进的投资。

        2025年的资本支出达914亿美元,其中大部分投向了服务器和数据中心等技术基础设施(来源:Alphabet Earnings Call, FY2025)。

        相比之下,Google Cloud的年度销售额约为588亿美元,营业利润约为139亿美元(来源同上)。

        当然,914亿美元的资本支出不仅面向Cloud业务,也支撑着搜索引擎、AI研究基础设施等全公司层面的基础设施。

        但即便假设其中一半用于Cloud,也约达457亿美元,相当于Cloud销售额的约80%、营业利润的约3.3倍。

        即便考虑到这一点,当前投资规模已大幅偏离传统投资回收模型。

        此外,与Microsoft同样,预计2026年Google整体的设备投资将达到1800亿至1900亿美元,较上年增长约2.4至2.5倍。

        鉴于如此高水平的设备投资,不难想象云业务的投资回收将变得更加困难。

        02AI数据中心的成本结构投资规模之所以能膨胀至此,原因在于AI数据中心特有的成本结构。

        首先,我们来推测AI数据中心的成本结构及市场范围(图4)。

        图4:AI数据中心的成本结构、市场区间(文中所载代表值);来源:根据各类市场调查、供应商报价区间、行业分析师推算、以TrendForce为首的各类内存市场报告、NVIDIA规格等由笔者制作首先是GPU。

        当前的AI基础设施在很大程度上依赖于NVIDIA生产的GPU。

        例如,H100的系统价格虽因配置而异,但据称每块约为2.5万至4万美元(来源:各类市场调研、供应商报价范围),在8块GPU的配置下,每机架成本可达约300万美元。

        此外,在GB200世代,每机架价格将升至数百万美元后半段(约350万至550万美元规模)(来源:行业分析师估算)。

        更重要的是,投资并非针对单个GPU,而是以“集群为单位”。

        在当前的AI数据中心中,每个集群投入数千至数万个GPU的情况正逐渐成为常态,单个集群的投资额可达数亿美元至约7亿美元。

        其次是HBM。在H100和GB200中,每块GPU通常搭载6至8栈HBM的配置。

        HBM的单价虽因代际和合同条款而异,但据TrendForce等各类内存市场报告显示,HBM3/3E的每栈价格约为1000至1500美元。

        因此,每块GPU的HBM成本约为1万美元左右,在GPU总成本中占据极高比例。

        更重要的是供应限制。HBM市场几乎仅由SK海力士、三星电子和美光这三家公司垄断,尤其在尖端HBM领域,SK海力士的市场份额据称超过50%(来源:TrendForce, 2025)。

        这种供应集中形成了抑制价格下降的结构。第三是电力问题。

        AI数据中心的功耗与传统云服务相比高出数个数量级(图5)。

        例如,H100的TDP(注:Thermal Design Power的缩写,指为冷却芯片所需的预估最大发热量)约为700W,而GB200则达到1kW级别(来源:NVIDIA规格)。

        假设构建一个由1万个GPU组成的集群,仅GPU部分就需10MW的电力,若包含网络和冷却系统,总功耗将达到20~30MW。

        图5:AI数据中心年度电力消耗及其总费用;来源:根据各类市场调查、供应商报价区间、行业分析师推算、以TrendForce为首的各类内存市场报告、NVIDIA规格等由笔者制作回到图5的说明,换算为年度电力量,20MW的情况下,20MW × 24小时 × 365天 ≒ 1.75亿kWh/年。

        若电力单价为0.14美元/kWh(约等于20日元/kWh),则年度电力成本可达约2500万美元。

        实际上,考虑到冗余配置和冷却损耗,达到3500万美元规模/年的情况也被认为并不罕见。

        如上所述,GPU(资本支出)、HBM(供应制约)、电力(运营支出)三要素均随规模的扩大而加速增长。

        其结果是,AI基础设施的成本在结构上持续高位,与传统模式相比,几乎不存在通过规模扩张实现成本削减的余地。

        03传统回收模式已不再适用传统的云基础设施,得益于服务器单价的持续下降和利用率的提升,发挥了规模经济效应。

        随着摩尔定律和虚拟化技术的进步,一台服务器随着时间的推移能够处理“更便宜、更多”的服务,这支撑了传统的投资回收模式。

        然而,在AI数据中心中,情况大不相同。图6展示了其成本结构的前提条件,图7则展示了基于该前提条件计算出的AI数据中心投资回收线。

        图6:计算AI数据中心回收模型所用的前提条件;来源:根据各类市场调查、供应商报价区间、行业分析师推算、以TrendForce为首的各类内存市场报告、NVIDIA规格等由笔者制作图7:AI数据中心回收临界线的推算;来源:根据各类市场调查、供应商报价区间、行业分析师推算、以TrendForce为首的各类内存市场报告、NVIDIA规格等由笔者制作假设一个拥有1万个GPU的集群的初始投资为7亿美元(包括GPU、服务器、网络和冷却系统),并在会计上分5年摊销,则年摊销费用为1.4亿美元。

        加上3500万美元的电力成本和3500万美元的运营费用(维护、人工、数据中心租金等),年总成本约为2.1亿美元。

        由此,每块GPU所需的回收计费单价可通过下列公式计算:所需计费单价 = 年总成本 ÷(GPU数量 × 8760小时 × 稼动率)假设稼动率为70%,则:2.1亿美元 ÷(1万 × 8760小时 × 0.7)≒ 约3.43美元/GPU小时也就是说,如果每块GPU无法在接近满负荷运行的状态下持续产生每小时3.43美元以上的收益,就无法收回投资。

        这是"下限"而非"平均值",稼动率一旦下降,所需单价将进一步跳升。

        然而在现实市场中,生成式AI的推理价格正在急速下降。

        例如,据报道大型语言模型(LLM)的API(应用程序编程接口)价格在2023年至2025年间已出现下降至十分之一以下的案例(来源:OpenAI、Google、各类API价格比较)。

        此外,随着开源模型的普及,价格竞争愈发激烈。此处值得关注的是,尽管API价格急剧下滑,GPU、HBM及电力成本却反而呈上升态势。

        至此,传统的成本回收模式已难以成立。AI基础设施正从"越扩规模越有利的模式"转变为"越扩规模固定成本风险越大的模式"。

        那么,在何种水平下将陷入无法回收的境地?下面将基于Microsoft和Google的实际数据,对回收条件加以探讨。

        04回收临界线的实态如第1章所述,Microsoft在持续保持年均600亿至800亿美元规模投资的同时,截至2025年已承担超过200亿美元的折旧费用。

        若试图以Microsoft Cloud的营业利润覆盖这220亿美元的折旧费用,则将大幅压低Cloud业务的营业利润率。

        另一方面,Google Cloud业务的营业利润为139亿美元,而仅资本支出的一半(推算为Cloud向部分)就已达457亿美元规模,以单一年度来看,投入到投资中的资金相当于营业利润的3倍以上。

        这揭示了一个结构性问题。AI基础设施必须对所投资本持续维持极高的收益率,方能成立。

        然而现实中,AI服务价格持续下滑,GPU和HBM的成本高位不退,电力成本不断攀升。

        在这三种因素同时作用的环境下,投资回收的条件正在急速恶化。

        可以说,当前的AI投资已陷入一种结构性困境:除非极高的稼动率与高单价同时成立,否则回收极为困难。

        05投资为何仍不停歇那么,这场近乎疯狂的资本支出会减速吗?

        结论是否定的。Microsoft持有约3680亿美元的合同未履行余额(Remaining Performance Obligations:在手订单)(来源:Microsoft Earnings Call, FY2025 Q4),需求依然超过供给。

        Google也已明确表示将进一步扩大资本支出,以应对AI及云需求(来源:Alphabet Earnings Call, FY2025)。

        此处值得关注的是,两家公司并非"因为能回收才投资"。

        恰恰相反,正是因为"一旦停止投资便会被淘汰出竞争",才不得不持续投资。

        当前的AI投资,已从追求利润最大化的投资,异变为规避出局的投资。

        AI投资应被认为已不再处于"成长"阶段,而是进入了"消耗战"阶段。

        只要这一结构持续,AI热潮将继续扩大,而其内部将不断积累着无法收回投资的风险这一“扭曲”。

        这一扭曲将在某一临界点骤然显现。这便是下一章所揭示的"崩溃临界线"。

        06探寻崩溃临界线如前所述,判断AI投资的可持续性,需要将GPU数量、HBM、电力乃至电源基础设施作为一个整体来审视,而非仅着眼于GPU台数。

        本章以1万颗GPU级集群为代表案例,定量呈现在何种水平下投资将陷入无法回收的境地——即"崩溃临界线"。6-1)从GPU台数反推,HBM与电力需求将呈何种增长趋势?

        首先以1万颗GPU集群为前提。图8示每个集群所需的年度电量及其核电换算基准。

        图8:构成崩溃临界线前提的所需电力消耗物理规模;来源:根据各类市场调查、供应商报价区间、行业分析师推算、以TrendForce为首的各类内存市场报告、NVIDIA规格等由笔者制作假设每颗GPU搭载8栈HBM,则所需HBM合计达8万栈。

        以每栈24GB换算,总搭载量约为1.92PB。电力方面,若每颗GPU约为1kW级,包含冷却、变电、网络负荷在内整体设施负荷约为2倍,则1万颗GPU集群的设施负荷约为20MW。

        年度电力量可达约175.2GWh,若以此除以1座1GW级核电站以90%设备利用率运行时的年发电量,相当于约0.022座核电站的发电量。

        反言之,这意味着1座核电站仅能支撑约45个站点,若大规模扩建AI集群,若不新建核电站级电源,根本无法满足需求。6-2)崩溃临界线的定义如前所述,以1万颗GPU集群、初期投资7亿美元、会计摊销5年、年度运营费3500万美元、年度电力费约3500万美元计算,年度总成本约为2.10亿美元。

        此时损益平衡条件如第3章所述,可由以下公式表示:所需计费单价 = 年度总成本 ÷(GPU台数 × 24小时 × 365天 × 稼动率)以稼动率70%为前提,所需计费单价约为3.43美元/GPU小时。

        这便是本文所称的"崩溃临界线"。即,一旦AI服务价格跌破这一水平,或稼动率跌破这一前提,投资即刻进入无法回收的领域。

        此外,会计上5年的摊销期与NVIDIA GPU的技术迭代周期(大致每2年换代)相比,是较为乐观的前提。在后述的崩溃情景③中,将验证摊销期缩短对收益结构的影响。6-3)崩溃会骤然发生在通常的基础设施产业中,利润率是逐渐下降的。

        但在固定成本极为庞大的AI数据中心中,由于以下三个原因,一旦跌破某一临界线,损益将骤然恶化。

        GPU与HBM的初期投资巨大且固定 电力与冷却负荷高企,难以轻易降低 而另一方面,所需计费单价(市场价格)却在竞争压力下单方面下降因此,AI投资的恶化并非线性,而是非线性的结构。

        即并非"略有恶化则略感吃力",而是"一旦超过某一临界点,赤字便骤然扩大的结构"。

        这便是崩溃临界线的本质。下面将AI数据中心走向崩溃的情景分为三类,进行定量推算。

        各情景的共同条件见图9。图9:计算AI数据中心崩溃临界线时的共同条件;来源:根据各类市场调查、供应商报价区间、行业分析师推算、以TrendForce为首的各类内存市场报告、NVIDIA规格等由笔者制作6-4)三条崩溃情景关于三个崩溃情景,基于图10示以下模拟结果。

        图10:AI数据中心走向崩溃的三个情景模拟;来源:根据各类市场调查、供应商报价区间、行业分析师推算、以TrendForce为首的各类内存市场报告、NVIDIA规格等由笔者制作① 软性崩溃最易发生的是AI企业间价格竞争激化的情景。

        当计费单价降至2.90美元/GPU小时、稼动率下降至65%时,所需计费单价将上升至3.69美元,年度损益将出现约4490万美元的亏损。

        不过,如图10所示,这一阶段尚未达到全面崩溃,但利润已完全消失,投资回收正悄然走向破产。

        表面上需求得以维持,但内部的资本效率已然瓦解。② 硬性崩溃下一个危险情景是电力、冷却、部署等物理成本的上升。

        在计费单价3.00美元、稼动率55%的条件下,叠加电力单价上涨及设施负荷增大,所需计费单价将跳升至4.70美元,年度损益将出现约8170万美元的亏损。

        从图10可以看出,在这一阶段亏损幅度急剧扩大。这并非需求问题,而是基础设施成本摧毁盈利能力的典型案例。

        ③ 金融崩溃最为严峻的是金融层面率先爆发崩溃的情景。

        即便计费单价为3.20美元、稼动率为60%,一旦叠加摊销期缩短(5年→4年)与8%的资本成本负担,所需计费单价将达5.73美元,年度损益将出现约1.33亿美元的亏损。

        其结果如图10最下行所示,这一阶段的损失已达到无法吸收的水平(1.33亿美元/年)。

        设备在物理上损坏之前,资本市场将率先判定"无法回收"——这便是本情景的本质。6-5)崩溃以"非线性"方式发生图11示AI数据中心稼动率与所需计费单价之间的关系。

        此处值得关注的是,这一关系并非线性。图11:AI数据中心进入崩溃区域的临界条件;来源:根据各类市场调查、供应商报价区间、行业分析师推算、以TrendForce为首的各类内存市场报告、NVIDIA规格等由笔者制作稼动率70%时所需计费单价约为3.43美元,但稼动率降至60%时将上升至接近4美元。

        若进一步降至50%,所需单价将骤然跳升至接近5美元。

        图11所示的"BREAKDOWN ZONE"直观呈现了这一非线性特征。

        市场价格区间(2.5~3.0美元:基于AWS、Azure、Lambda Labs等H100/H200小时单价区间)已深度进入这一区域,当前AI服务价格在结构上很可能已低于回收临界线。6-6)电力制约:AI已成国家基础设施问题更为重要的是,AI投资的规模化直接依赖于电力基础设施。

        如图12所示,1万颗GPU约需20MW,10万颗GPU则需200MW,100万颗GPU则达2000MW(即2GW)。

        这已不仅仅是数据中心的扩张,而意味着电力供应基础设施本身的扩张。

        图12:从1万GPU→10万GPU→100万GPU,所需电力急剧增长;来源:根据各类市场调查、供应商报价区间、行业分析师推算、以TrendForce为首的各类内存市场报告、NVIDIA规格等由笔者制作若将这部分电力换算为核电站,则为:1万个GPU集群:0.02座10万个GPU集群:0.2座100万个GPU集群:2.2座由此可见,AI投资的扩大本身即是电力基础设施的扩张。

        AI数据中心已不再仅仅是IT产业的问题,而是转化为电力、土地、建设能力等"国家供给能力的问题"。6-7)AI投资所面临的"崩溃"当前对AI数据中心的投资,不仅"无法盈利",更具有"在物理上也无法持续"的结构。

        市场价格下跌、稼动率降低、电力成本上升、资本市场趋严——

        其中任何一个因素单独推进,崩溃临界线便会即刻显现。

        而这一崩溃并非逐渐发生,而是在超过某一临界点的瞬间骤然降临。

        这已不仅仅是半导体产业的问题,同时也是国家层面电力供给能力的问题。

        结语据日本经济新闻等媒体报道,2026年4月3日,高市早苗首相与美国超大规模云服务商之一Microsoft的总裁布拉德·史密斯会谈,对该公司向日本投资规模达100亿美元(约1.6万亿日元)的数据中心表示欢迎。

        然而如本文所示,这笔投资具有盈利崩溃、大量消耗电力、对国家基础设施造成负担的结构。

        对此类投资表示欢迎,难以称之为有利于国家利益的成长战略,恐将沦为把本国的电力与资本拱手相让给外资AI基础设施的结果。

        在AI热潮的狂热背后,我们现在有必要冷静审视日本将为此付出的代价之沉重。

         扫描下方二维码领取100G半导体产业资料包推荐阅读:▶立创商城背后的公司,刚刚IPO过会了▶艾睿、安富利,一季度业绩爆了!

        ▶2025 TOP4芯片分销商,文晔杀疯了▶最新!

        近60家电子元器件企业涨价函汇总▶涨价、出货量下调!

        存储芯片刺痛终端厂商点击查看往期内容↓↓↓将芯世相设为“星标”,第一时间收获最新推送求点赞求分享求喜欢
🔗 原文链接:http://mp.weixin.qq.com/s?__biz=MzU1MzQ1NDk3MQ==&mid=2247581808&idx=1&sn=a9ecb0773eb49f7c7ee200f0d69ba554&chksm=faa31a47477023f29cd97d18c0c578d1da06d6e264e078f99e425647ccdc92a7474ca9ba723a
← 返回列表