宁静致远

        我是芯片超人花姐，入行20年，有50W+芯片行业粉丝。有很多不方便公开发公众号的，关于芯片买卖、关于资源链接等，我会分享在朋友圈。

        扫码加我本人微信👇作者简介：汤之上隆先生为日本精密加工研究所所长，曾长期在日本制造业的生产第一线从事半导体研发工作，2000年获得京都大学工学博士学位，之后一直从事和半导体行业有关的教学、研究、顾问及新闻工作者等工作，曾撰写《日本“半导体”的失败》、《“电机、半导体”溃败的教训》、《失去的制造业：日本制造业的败北》等著作。

        AI数据中心的投资，如今已明显达到异常水平。Microsoft、Google、Amazon、Meta等超大规模云服务商（Hyperscaler）正竞相投入每年数千亿美元的资本支出。

        据TrendForce的报道，2026年上述四大超大规模云服务商的数据中心投资总额，最高将达7550亿美元（图1）。

        若以1美元兑160日元换算，约合120.8万亿日元，超过2025年度日本国家预算（一般会计总额约115万亿日元规模，来源：财务省）的水平。

        图1：四大超大规模云服务商对数据中心的疯狂资本支出；来源：根据TrendForce数据等由笔者制作之所以需要如此巨额的投资，是因为搭载在AI服务器上的AI半导体价格正在飙升。

        以AI半导体的代表产品——英伟达（NVIDIA）的GPU为例，在其当前的主力架构“Blackwell”中（按1美元=160日元计算），单块GPU“B200”的价格在500万至800万日元之间，搭载8个B200的服务器“DGX B200”售价为4000万至7000万日元，基于该服务器的AI机架“GB200 NVL72”则达到数亿至10亿日元级别（图2）。

        正因为需要将大量此类AI机架并排部署以构建AI数据中心，各超大规模云服务提供商的投资额才会超过1000亿至2000亿美元。

        图2：NVIDIA GPU的AI服务器及数据中心价格结构（Hopper、Blackwell、Rubin）；来源：根据NVIDIA技术发布及产品资料、TSMC相关报道、Micron Technology与SK hynix的HBM发布、各类行业分析（Reuters、SemiAnalysis、TrendForce等）由作者制作（价格及部分配置为推算）然而，这已超出了“增长投资”这一术语所能涵盖的范畴，反而呈现出一种更接近于“为竞争而进行的军备竞赛”的态势。

        在这种情况下，有一个至关重要却几乎未被正面讨论的问题。

        那就是“这项投资真的能够收回成本吗”这一极其基本且本质的问题。

        在AI热潮中，人们往往只强调需求强度和技术创新，但在资本密集型产业中，最终被问及的始终是投资回报的成败。

        本文将AI数据中心的成本结构分解为GPU、高带宽内存（HBM）、电力三个要素，并进一步利用Microsoft和Google的实际披露数据，对当前AI投资的收益结构进行定量分析。

        在此基础上，尝试推算在哪个时间节点将陷入无法回收的境地，即所谓"崩溃临界线"。

        此外，本文的分析以GPU基础设施按时计费的直接收益为对象，不包含AI所带来的间接收益效果（如搜索广告质量提升、SaaS附加价值增加等）。

        请读者在理解这一前提的基础上阅读本文。若先行揭示结论：美国各超大规模云服务商对AI数据中心近乎疯狂的投资，极有可能已经破产。

        用动画《北斗神拳》中拳四郎的名言来说，就是“你已经死了”。

        01从Microsoft与Google看投资规模的实态图3以定量方式呈现了从Microsoft与Google案例中所见的投资规模实态。

        基于该数据，我们可以看出Microsoft以及Alphabet旗下Google的数据中心投资已达到何等异常的水平。

        图3：从Microsoft与Google看投资规模的实态；来源：根据Microsoft FY2025年度报告、Alphabet Earnings Call FY2025数据由笔者制作1-1）Microsoft的情况根据Microsoft 2025财年年度报告，资本支出（固定资产的增加）已达645亿美元（来源：Microsoft Form 10-K, FY2025）。

        此外，公司说明以AI基础设施为中心的投资有望超过800亿美元（来源：Microsoft官方发布, 2025年）。

        将这一规模与Microsoft 云业务的销售额1680亿美元（来源同上）相比较，资本支出约占销售额的38%，按公司披露数据计算则约为48%。

        通常情况下，在稳定的基础设施业务中，资本支出超过销售额30%的情况极为罕见，这一水平极为异常。

        更为重要的是，折旧费用已达220亿美元（来源同上）。

        这意味着过去投资的负担已开始影响损益，未来数年间这一负担持续增加的可能性极高。

        此外，如前图1所示，2026年Microsoft的资本支出预计将比上年增长约2.4倍，达到1900亿美元。因此，可以预测Microsoft的损益将大幅向负方向移动。1-2）Google的情况另一方面，拥有Google的Alphabet进行了更为激进的投资。

        2025年的资本支出达914亿美元，其中大部分投向了服务器和数据中心等技术基础设施（来源：Alphabet Earnings Call, FY2025）。

        相比之下，Google Cloud的年度销售额约为588亿美元，营业利润约为139亿美元（来源同上）。

        当然，914亿美元的资本支出不仅面向Cloud业务，也支撑着搜索引擎、AI研究基础设施等全公司层面的基础设施。

        但即便假设其中一半用于Cloud，也约达457亿美元，相当于Cloud销售额的约80%、营业利润的约3.3倍。

        即便考虑到这一点，当前投资规模已大幅偏离传统投资回收模型。

        此外，与Microsoft同样，预计2026年Google整体的设备投资将达到1800亿至1900亿美元，较上年增长约2.4至2.5倍。

        鉴于如此高水平的设备投资，不难想象云业务的投资回收将变得更加困难。

        02AI数据中心的成本结构投资规模之所以能膨胀至此，原因在于AI数据中心特有的成本结构。

        首先，我们来推测AI数据中心的成本结构及市场范围（图4）。

        图4：AI数据中心的成本结构、市场区间（文中所载代表值）；来源：根据各类市场调查、供应商报价区间、行业分析师推算、以TrendForce为首的各类内存市场报告、NVIDIA规格等由笔者制作首先是GPU。

        当前的AI基础设施在很大程度上依赖于NVIDIA生产的GPU。

        例如，H100的系统价格虽因配置而异，但据称每块约为2.5万至4万美元（来源：各类市场调研、供应商报价范围），在8块GPU的配置下，每机架成本可达约300万美元。

        此外，在GB200世代，每机架价格将升至数百万美元后半段（约350万至550万美元规模）（来源：行业分析师估算）。

        更重要的是，投资并非针对单个GPU，而是以“集群为单位”。

        在当前的AI数据中心中，每个集群投入数千至数万个GPU的情况正逐渐成为常态，单个集群的投资额可达数亿美元至约7亿美元。

        其次是HBM。在H100和GB200中，每块GPU通常搭载6至8栈HBM的配置。

        HBM的单价虽因代际和合同条款而异，但据TrendForce等各类内存市场报告显示，HBM3/3E的每栈价格约为1000至1500美元。

        因此，每块GPU的HBM成本约为1万美元左右，在GPU总成本中占据极高比例。

        更重要的是供应限制。HBM市场几乎仅由SK海力士、三星电子和美光这三家公司垄断，尤其在尖端HBM领域，SK海力士的市场份额据称超过50%（来源：TrendForce, 2025）。

        这种供应集中形成了抑制价格下降的结构。第三是电力问题。

        AI数据中心的功耗与传统云服务相比高出数个数量级（图5）。

        例如，H100的TDP（注：Thermal Design Power的缩写，指为冷却芯片所需的预估最大发热量）约为700W，而GB200则达到1kW级别（来源：NVIDIA规格）。

        假设构建一个由1万个GPU组成的集群，仅GPU部分就需10MW的电力，若包含网络和冷却系统，总功耗将达到20～30MW。

        图5：AI数据中心年度电力消耗及其总费用；来源：根据各类市场调查、供应商报价区间、行业分析师推算、以TrendForce为首的各类内存市场报告、NVIDIA规格等由笔者制作回到图5的说明，换算为年度电力量，20MW的情况下，20MW × 24小时 × 365天 ≒ 1.75亿kWh/年。

        若电力单价为0.14美元/kWh（约等于20日元/kWh），则年度电力成本可达约2500万美元。

        实际上，考虑到冗余配置和冷却损耗，达到3500万美元规模/年的情况也被认为并不罕见。

        如上所述，GPU（资本支出）、HBM（供应制约）、电力（运营支出）三要素均随规模的扩大而加速增长。

        其结果是，AI基础设施的成本在结构上持续高位，与传统模式相比，几乎不存在通过规模扩张实现成本削减的余地。

        03传统回收模式已不再适用传统的云基础设施，得益于服务器单价的持续下降和利用率的提升，发挥了规模经济效应。

        随着摩尔定律和虚拟化技术的进步，一台服务器随着时间的推移能够处理“更便宜、更多”的服务，这支撑了传统的投资回收模式。

        然而，在AI数据中心中，情况大不相同。图6展示了其成本结构的前提条件，图7则展示了基于该前提条件计算出的AI数据中心投资回收线。

        图6：计算AI数据中心回收模型所用的前提条件；来源：根据各类市场调查、供应商报价区间、行业分析师推算、以TrendForce为首的各类内存市场报告、NVIDIA规格等由笔者制作图7：AI数据中心回收临界线的推算；来源：根据各类市场调查、供应商报价区间、行业分析师推算、以TrendForce为首的各类内存市场报告、NVIDIA规格等由笔者制作假设一个拥有1万个GPU的集群的初始投资为7亿美元（包括GPU、服务器、网络和冷却系统），并在会计上分5年摊销，则年摊销费用为1.4亿美元。

        加上3500万美元的电力成本和3500万美元的运营费用（维护、人工、数据中心租金等），年总成本约为2.1亿美元。

        由此，每块GPU所需的回收计费单价可通过下列公式计算：所需计费单价＝年总成本 ÷（GPU数量 × 8760小时 × 稼动率）假设稼动率为70%，则：2.1亿美元 ÷（1万 × 8760小时 × 0.7）≒ 约3.43美元/GPU小时也就是说，如果每块GPU无法在接近满负荷运行的状态下持续产生每小时3.43美元以上的收益，就无法收回投资。

        这是"下限"而非"平均值"，稼动率一旦下降，所需单价将进一步跳升。

        然而在现实市场中，生成式AI的推理价格正在急速下降。

        例如，据报道大型语言模型（LLM）的API（应用程序编程接口）价格在2023年至2025年间已出现下降至十分之一以下的案例（来源：OpenAI、Google、各类API价格比较）。

        此外，随着开源模型的普及，价格竞争愈发激烈。此处值得关注的是，尽管API价格急剧下滑，GPU、HBM及电力成本却反而呈上升态势。

        至此，传统的成本回收模式已难以成立。AI基础设施正从"越扩规模越有利的模式"转变为"越扩规模固定成本风险越大的模式"。

        那么，在何种水平下将陷入无法回收的境地？下面将基于Microsoft和Google的实际数据，对回收条件加以探讨。

        04回收临界线的实态如第1章所述，Microsoft在持续保持年均600亿至800亿美元规模投资的同时，截至2025年已承担超过200亿美元的折旧费用。

        若试图以Microsoft Cloud的营业利润覆盖这220亿美元的折旧费用，则将大幅压低Cloud业务的营业利润率。

        另一方面，Google Cloud业务的营业利润为139亿美元，而仅资本支出的一半（推算为Cloud向部分）就已达457亿美元规模，以单一年度来看，投入到投资中的资金相当于营业利润的3倍以上。

        这揭示了一个结构性问题。AI基础设施必须对所投资本持续维持极高的收益率，方能成立。

        然而现实中，AI服务价格持续下滑，GPU和HBM的成本高位不退，电力成本不断攀升。

        在这三种因素同时作用的环境下，投资回收的条件正在急速恶化。

        可以说，当前的AI投资已陷入一种结构性困境：除非极高的稼动率与高单价同时成立，否则回收极为困难。

        05投资为何仍不停歇那么，这场近乎疯狂的资本支出会减速吗？

        结论是否定的。Microsoft持有约3680亿美元的合同未履行余额（Remaining Performance Obligations：在手订单）（来源：Microsoft Earnings Call, FY2025 Q4），需求依然超过供给。

        Google也已明确表示将进一步扩大资本支出，以应对AI及云需求（来源：Alphabet Earnings Call, FY2025）。

        此处值得关注的是，两家公司并非"因为能回收才投资"。

        恰恰相反，正是因为"一旦停止投资便会被淘汰出竞争"，才不得不持续投资。

        当前的AI投资，已从追求利润最大化的投资，异变为规避出局的投资。

        AI投资应被认为已不再处于"成长"阶段，而是进入了"消耗战"阶段。

        只要这一结构持续，AI热潮将继续扩大，而其内部将不断积累着无法收回投资的风险这一“扭曲”。

        这一扭曲将在某一临界点骤然显现。这便是下一章所揭示的"崩溃临界线"。

        06探寻崩溃临界线如前所述，判断AI投资的可持续性，需要将GPU数量、HBM、电力乃至电源基础设施作为一个整体来审视，而非仅着眼于GPU台数。

        本章以1万颗GPU级集群为代表案例，定量呈现在何种水平下投资将陷入无法回收的境地——即"崩溃临界线"。6-1）从GPU台数反推，HBM与电力需求将呈何种增长趋势？

        首先以1万颗GPU集群为前提。图8示每个集群所需的年度电量及其核电换算基准。

        图8：构成崩溃临界线前提的所需电力消耗物理规模；来源：根据各类市场调查、供应商报价区间、行业分析师推算、以TrendForce为首的各类内存市场报告、NVIDIA规格等由笔者制作假设每颗GPU搭载8栈HBM，则所需HBM合计达8万栈。

        以每栈24GB换算，总搭载量约为1.92PB。电力方面，若每颗GPU约为1kW级，包含冷却、变电、网络负荷在内整体设施负荷约为2倍，则1万颗GPU集群的设施负荷约为20MW。

        年度电力量可达约175.2GWh，若以此除以1座1GW级核电站以90%设备利用率运行时的年发电量，相当于约0.022座核电站的发电量。

        反言之，这意味着1座核电站仅能支撑约45个站点，若大规模扩建AI集群，若不新建核电站级电源，根本无法满足需求。6-2）崩溃临界线的定义如前所述，以1万颗GPU集群、初期投资7亿美元、会计摊销5年、年度运营费3500万美元、年度电力费约3500万美元计算，年度总成本约为2.10亿美元。

        此时损益平衡条件如第3章所述，可由以下公式表示：所需计费单价＝年度总成本 ÷（GPU台数 × 24小时 × 365天 × 稼动率）以稼动率70%为前提，所需计费单价约为3.43美元/GPU小时。

        这便是本文所称的"崩溃临界线"。即，一旦AI服务价格跌破这一水平，或稼动率跌破这一前提，投资即刻进入无法回收的领域。

        此外，会计上5年的摊销期与NVIDIA GPU的技术迭代周期（大致每2年换代）相比，是较为乐观的前提。在后述的崩溃情景③中，将验证摊销期缩短对收益结构的影响。6-3）崩溃会骤然发生在通常的基础设施产业中，利润率是逐渐下降的。

        但在固定成本极为庞大的AI数据中心中，由于以下三个原因，一旦跌破某一临界线，损益将骤然恶化。

        GPU与HBM的初期投资巨大且固定电力与冷却负荷高企，难以轻易降低而另一方面，所需计费单价（市场价格）却在竞争压力下单方面下降因此，AI投资的恶化并非线性，而是非线性的结构。

        即并非"略有恶化则略感吃力"，而是"一旦超过某一临界点，赤字便骤然扩大的结构"。

        这便是崩溃临界线的本质。下面将AI数据中心走向崩溃的情景分为三类，进行定量推算。

        各情景的共同条件见图9。图9：计算AI数据中心崩溃临界线时的共同条件；来源：根据各类市场调查、供应商报价区间、行业分析师推算、以TrendForce为首的各类内存市场报告、NVIDIA规格等由笔者制作6-4）三条崩溃情景关于三个崩溃情景，基于图10示以下模拟结果。

        图10：AI数据中心走向崩溃的三个情景模拟；来源：根据各类市场调查、供应商报价区间、行业分析师推算、以TrendForce为首的各类内存市场报告、NVIDIA规格等由笔者制作① 软性崩溃最易发生的是AI企业间价格竞争激化的情景。

        当计费单价降至2.90美元/GPU小时、稼动率下降至65%时，所需计费单价将上升至3.69美元，年度损益将出现约4490万美元的亏损。

        不过，如图10所示，这一阶段尚未达到全面崩溃，但利润已完全消失，投资回收正悄然走向破产。

        表面上需求得以维持，但内部的资本效率已然瓦解。② 硬性崩溃下一个危险情景是电力、冷却、部署等物理成本的上升。

        在计费单价3.00美元、稼动率55%的条件下，叠加电力单价上涨及设施负荷增大，所需计费单价将跳升至4.70美元，年度损益将出现约8170万美元的亏损。

        从图10可以看出，在这一阶段亏损幅度急剧扩大。这并非需求问题，而是基础设施成本摧毁盈利能力的典型案例。

        ③ 金融崩溃最为严峻的是金融层面率先爆发崩溃的情景。

        即便计费单价为3.20美元、稼动率为60%，一旦叠加摊销期缩短（5年→4年）与8%的资本成本负担，所需计费单价将达5.73美元，年度损益将出现约1.33亿美元的亏损。

        其结果如图10最下行所示，这一阶段的损失已达到无法吸收的水平（1.33亿美元/年）。

        设备在物理上损坏之前，资本市场将率先判定"无法回收"——这便是本情景的本质。6-5）崩溃以"非线性"方式发生图11示AI数据中心稼动率与所需计费单价之间的关系。

        此处值得关注的是，这一关系并非线性。图11：AI数据中心进入崩溃区域的临界条件；来源：根据各类市场调查、供应商报价区间、行业分析师推算、以TrendForce为首的各类内存市场报告、NVIDIA规格等由笔者制作稼动率70%时所需计费单价约为3.43美元，但稼动率降至60%时将上升至接近4美元。

        若进一步降至50%，所需单价将骤然跳升至接近5美元。

        图11所示的"BREAKDOWN ZONE"直观呈现了这一非线性特征。

        市场价格区间（2.5～3.0美元：基于AWS、Azure、Lambda Labs等H100/H200小时单价区间）已深度进入这一区域，当前AI服务价格在结构上很可能已低于回收临界线。6-6）电力制约：AI已成国家基础设施问题更为重要的是，AI投资的规模化直接依赖于电力基础设施。

        如图12所示，1万颗GPU约需20MW，10万颗GPU则需200MW，100万颗GPU则达2000MW（即2GW）。

        这已不仅仅是数据中心的扩张，而意味着电力供应基础设施本身的扩张。

        图12：从1万GPU→10万GPU→100万GPU，所需电力急剧增长；来源：根据各类市场调查、供应商报价区间、行业分析师推算、以TrendForce为首的各类内存市场报告、NVIDIA规格等由笔者制作若将这部分电力换算为核电站，则为：1万个GPU集群：0.02座10万个GPU集群：0.2座100万个GPU集群：2.2座由此可见，AI投资的扩大本身即是电力基础设施的扩张。

        AI数据中心已不再仅仅是IT产业的问题，而是转化为电力、土地、建设能力等"国家供给能力的问题"。6-7）AI投资所面临的"崩溃"当前对AI数据中心的投资，不仅"无法盈利"，更具有"在物理上也无法持续"的结构。

        市场价格下跌、稼动率降低、电力成本上升、资本市场趋严——

        其中任何一个因素单独推进，崩溃临界线便会即刻显现。

        而这一崩溃并非逐渐发生，而是在超过某一临界点的瞬间骤然降临。

        这已不仅仅是半导体产业的问题，同时也是国家层面电力供给能力的问题。

        结语据日本经济新闻等媒体报道，2026年4月3日，高市早苗首相与美国超大规模云服务商之一Microsoft的总裁布拉德·史密斯会谈，对该公司向日本投资规模达100亿美元（约1.6万亿日元）的数据中心表示欢迎。

        然而如本文所示，这笔投资具有盈利崩溃、大量消耗电力、对国家基础设施造成负担的结构。

        对此类投资表示欢迎，难以称之为有利于国家利益的成长战略，恐将沦为把本国的电力与资本拱手相让给外资AI基础设施的结果。

        在AI热潮的狂热背后，我们现在有必要冷静审视日本将为此付出的代价之沉重。

         扫描下方二维码领取100G半导体产业资料包推荐阅读：▶立创商城背后的公司，刚刚IPO过会了▶艾睿、安富利，一季度业绩爆了！

        ▶2025 TOP4芯片分销商，文晔杀疯了▶最新！

        近60家电子元器件企业涨价函汇总▶涨价、出货量下调！

        存储芯片刺痛终端厂商点击查看往期内容↓↓↓将芯世相设为“星标”，第一时间收获最新推送求点赞求分享求喜欢

🔗 原文链接：http://mp.weixin.qq.com/s?__biz=MzU1MzQ1NDk3MQ==&mid=2247581808&idx=1&sn=a9ecb0773eb49f7c7ee200f0d69ba554&chksm=faa31a47477023f29cd97d18c0c578d1da06d6e264e078f99e425647ccdc92a7474ca9ba723a