01.万卡 AI 集群建设挑战

本节目录 Contents

01.万卡 AI 集群建设挑战#

Author by: wangxinxin

一、超万卡集群背景与趋势#

1.1 大模型驱动万卡集群建设#

自ChatGPT面世以来，大模型技术进入迅猛迭代期，模型参数量呈“指数级”跃升，从2018年BERT模型的1.1亿参数，快速突破至2021年GPT-3的1750亿参数，而后随着Mixture of Experts（MOE）等先进结构迈入万亿规模，OpenAI于2025年发布的GPT-5参数规模已经达到了52万亿。大模型能力的跃迁，直接带来了对巨量算力与能源的刚性需求，传统算力设施已无法满足需求。从具体消耗来看，GPT-4（含16个专家模型、1.8万亿参数）一次训练需在25000个A100芯片上运行90至100天；从设施要求来看，大模型对底层算力提出更高标准，不仅需要更高密度的存算硬件、高性能无阻塞的网络连接，还需支持更高并行度的通信与计算范式，新一代智算中心的技术需求日益严苛。这种“算力缺口”成为关键推力，让超万卡集群逐渐成为大模型基建的标配。

在全球化科技竞争格局下，国内外企业纷纷布局超万卡集群。国际上，Google推出含26000块Nvidia H100 GPU的A3虚拟机，同时搭建TPUv5p 8960卡自研芯片集群；Meta于2022年建成含有16000块A100芯片的集群AI Research Super Cluster，2024年初又公布了2个配备24576块H100芯片的集群，用于生成式AI模型训练。国内方面，通信运营商依托机房资源建设智算中心，头部互联网企业（如字节跳动搭建12288卡Ampere架构集群）加速技术突破，全行业通过布局超万卡集群，支撑大模型快速迭代、应对市场趋势，抢占AI技术与产业创新的先机。

1.2 万卡集群整体建设挑战#

超万卡GPU/NPU大规模AI集群建设面临多维度复杂挑战。在基础设施层面，超万卡集群对机房配套设施的需求相对于传统云数据中心发生重大变化，对供电、承重、机房洁净度和走线架设计等有极高要求，需要解决高密度供电、高效散热、超大规模网络互联等问题，集群需承载超5000P算力、200P存储资源及近千台交换机，涉及超千机柜、5000台设备，配套超10万个光模块、8万根数据线缆及20万个接头，且需多机房部署，同时参与方涵盖设计院、研发部、设备供应商等多方，工期紧张且机房初始准备度低，协调与推进难度大。其次是硬件资源与能耗约束，单卡能耗达350W、单节点3000W、单柜20kW，千余机柜集中部署使能耗密度突破物理极限，电力供应与散热压力显著；在系统架构层面，需要实现异构算力的统一管理、大规模资源的智能调度、训练任务的高可用保障，模型规模扩大到万亿量级，数据的吞吐量和计算量已远远超过目前最强单机单卡能力，多机多卡互联和并行训练策略至关重要。此外，多层互联架构下近千台交换机易导致网络通信带宽不足与延迟升高，集合通信、点对点通信在超规模场景下回环时间延长。在运维管理层面，系统可靠性随规模扩张呈指数级下降，超万卡集群承载万亿模型训练意味着千万器件的满负荷高速运转，任一部件不可恢复的失效都可能导致训练中断，带来超万卡集群高可用和易运维的关键挑战。在国产化与成本维度方面，万卡集群面临国产化生态与性能的双重差距，同时千亿级的投资规模带来极高的商业运营风险，进一步加剧了集群建设的综合挑战。

二电力供应与散热挑战：能耗密度突破物理极限#

2.1 万卡集群功耗现状#

超大规模AI集群建设正面临着前所未有的能耗挑战。首先，AI芯片的功耗正呈现出前所未有的增长态势。从NVIDIA的产品线来看，功耗演进经历了明显的跃升过程。A100系列的功耗为250-400 W，而到了H100系列，功耗显著提升至350-800 W。最新发布的Blackwell架构更是将功耗推向了新的高度 B200的功耗已达1000-1200 W。此外，由两颗B200 GPU和一颗Grace CPU组成的GB200超级芯片，总功耗高达2700 W。

根据单张H100 GPU功耗525 W，10万张GPU总功耗52.5 MW估算，并考虑其他IT设备（服务器、存储、网络等），10万张H100 GPU集群总功耗可达150 MW。在年耗电量方面，10万卡集群的年耗电量约为15.9亿度电，这相当于约15万个家庭一年的用电量，按照美国电力标准费率0.078美元/千瓦时计算，10万卡集群每年的电费成本约为1.24 亿美元。

2.2 数据中心供电架构演进：从12V到48V直连再到垂直供电VPD#

传统12V供电架构是早期数据中心和服务器的主流配电方案，其基本原理基于直流电压分配网络（PDN）。在这一架构中，市电通过不间断电源或高压直流系统转换为12V直流母线电压，然后通过母线排、电缆和PCB走线分配到各个服务器和IT设备 ¹ ¹https://www.toutiao.com/article/7561269403564638729/?upstream_biz=doubao&source=m_redirect。

12V供电的核心问题在于其固有的I²R损耗机制。根据功率损耗公式P=I²R，当传输功率一定时，电压越低所需电流越大，而电流的平方增长会导致损耗急剧增加。在典型的12V系统中，分配路径的电阻虽然看似微小，但在大电流传输时会产生显著的功率损耗。

随着AI芯片性能的指数级增长，服务器功耗呈现爆发式上升。以英伟达为例，其B200GPU单芯片功耗达1000W，GB200更突破至2700W，驱动单机柜功率从20kW跃升至120kW以上。这种功耗激增直接导致了电流需求的急剧上升。现代AI处理器的持续电流需求可能达到1000A或更高，峰值电流甚至可达2000A。在如此高的电流需求下，I²R损耗剧增，散热成本攀升。

在功率损耗和散热管理方面，通常有两种方法可以改善PDN对电力系统性能的影响：第一种方式是使用更大尺寸的电缆、连接器和更厚的主板电源板以降低PDN电阻；第二种方式是提高电压以降低给定功率传输的电流，这样可以降低电缆、连接器、主板铜平面尺寸及其相关的尺寸、成本和重量。

然而，采用第一种方式会将增加的功率分配给多个服务器处理会造成更大的功率损失，因此，近年来电力设计越来越多地采用第二种方式，即采用更高的电压来降低功率损耗。2016年，谷歌在OCP峰会上提出了48V机架电源架构，用以取代当时普遍应用的12V。

相比12V电源架构，采用48V直流馈电的优势非常明显。假设分配路径的电阻为0.1mΩ，12V的分配损耗为100W，但在48V的情况下，损耗为6.25W，这里有16倍的差值。也就是说，相对12V的配电方案，48V方案可将总功率损耗降低16倍，整个系统的转换效率提升30% ² ²https://component.eetrend.com/content/2023/100570529.html。这一巨大差异在高功率密度场景下变得尤为突出，成为制约数据中心能效提升的关键瓶颈。

图1：12V和48V直流供电二者配电损耗比较

尽管48V直连方案解决了传输损耗问题，但在高电流（>1000A/芯片）场景下，电压转换效率成为新的技术瓶颈。这一问题的产生源于现代处理器内核电压的持续下降趋势。现代AI处理器的内核电压已经降至0.7V甚至更低，而48V输入与0.7V输出之间的转换比为68:1。如此高的转换比使得传统的DC/DC转换器效率急剧下降，即使采用最先进的同步整流技术，效率也难以超过88%。大电流下的转换损耗激增成为不可忽视的问题。在1000A电流下，即使转换效率达到90%，仍有100W的功率损耗需要处理。而实际情况往往更加严峻，传统的电压调节模块在高转换比和大电流的双重压力下，效率可能降至80%以下，导致数百瓦的损耗。

此外，高转换损耗产生的热量必须通过有效的散热系统来处理，这不仅增加了系统成本，还带来了设计复杂性。在高密度的服务器环境中，为电压调节模块提供足够的散热空间和气流成为一个巨大挑战。

面对48V架构在高电流转换效率方面的挑战，Vicor公司提出了革命性的垂直供电架构（Vertical Power Delivery, VPD）。利用分比式电源架构，通过横向供电和垂直供电的完美结合，最大限度降低"最后一英寸"阻抗。（随着AI技术发展，芯片等设计越来越小，对PCB空间限制越来越严苛） ³ ³https://blog.csdn.net/FL63Zv9Zou86950w/article/details/119396129。

具体来说，传统的供电架构采用"平面式"设计，即功率转换模块位于处理器的同一平面，通过PCB走线将电力传输到处理器。这种设计不可避免地存在较长的电流传输路径，即使在48V架构下，仍然会产生显著的传输损耗。而在垂直供电中，电流倍增器直接位于处理器下方、电路板的另一侧，通过缩短电流在主板上的传输距离，大幅降低了电源分配网络的损耗。且为了实现最高效率，电流从VPD解决方案流出的实际位置和路径模式和处理器核心电源输入的位置和路径模式完全一致，这能使大电流流动形成真正的“垂直”分布。

VPD解决方案是一个集成模块，由三层组成：一个VTM™电流倍增器阵列，其下方设有一个齿轮箱，上方装有一个PRM™调节器，可为每个处理器（一种DCM™）提供完整的48V至负载稳压解决方案。VTM阵列的尺寸基于处理器的输出电流要求确定，PRM的尺寸则基于功率要求确定。如果GPU或ASIC需要多个电源轨，那么VTM和PRM层可采用独立的PRM和VTM来实现，其尺寸需满足每个特定电源轨的电流和功率电压要求。齿轮箱有两个功能：它集成了高频去耦电容，并将来自VTM的电流重新分配成与上方处理器相匹配的模式。电流倍增器GTM置于处理器下方，最大限度地提高电源传输性能。此外，采用SM-ChiP封装将所有无源器件、磁性器件、MOSFET和控制器集成到一个模块中，降低噪声改善散热性能。这种VPD解决方案还能释放处理器顶部外围空间，为更多选择提供可能，包括更高的输入/输出布线、板载内存或更紧密的处理器集群 ⁴ ⁴https://www.powersystemsdesign.com/articles/powering-clustered-ai-processors/29/18419。

图2 VPD结构示意图

对比维度	传统12V架构	48V直连架构	VPD垂直架构
配电电压	12V	48V	48V
典型传输电流（12kW）	1000A	250A	250A
传输损耗（100μΩ路径）	100W	6.25W	<1W
转换效率	85-90%	88-92%	95-97%
系统总效率	75-80%	80-85%	90-95%
PCB 空间占用	高（需宽走线）	中	低（无大电流走线）
散热需求	极高	高	低
动态响应时间	>10μs	5-10μs	<1μs
成本指数（相对值）	1.0	1.2	1.5

2.3 液冷协同设计#

当前液冷技术发展呈现出三大主流技术路线并行的格局。冷板式液冷作为最成熟的方案，通过在CPU、GPU等高发热器件上安装冷板实现液冷散热，改造相对简单，兼容性好，适合现有数据中心的升级改造。浸没式液冷则是更为彻底的解决方案，将整个服务器浸没在绝缘冷却液中，在高密度算力场景下优势明显，特别适合AI训练等高功率密度应用。喷淋式液冷介于两者之间，通过精确喷淋实现局部液冷。

随着数据中心功率密度的不断提升，液冷系统与配电系统的协同设计已成为提升整体能效的关键路径。英伟达Kyber机架架构实现了800VDC与液冷技术的融合，这一架构的核心在于对800VDC电力输送、液体冷却和机械设计的创新，能显著提升供电效率，减少能量损耗。在2024年OCP全球峰会上，谷歌讨论了开发多达1 MW IT机架的计划 ⁵ ⁵https://blog.csdn.net/j6UL6lQ4vA97XlM/article/details/147158047。这一目标的实现离不开液冷与配电系统的深度协同。

液冷与配电系统协同设计的必要性主要体现在以下几个方面：

首先是空间利用的优化需求。传统的液冷系统和配电系统通常独立设计，占用了大量的机房空间。通过协同设计，可以实现液冷管路与电力电缆的一体化布局，大幅提升空间利用效率。例如，Meta开发了液冷母线排，包含一个垂直沿机架运行的新型液冷母线，以及将电源机架连接到IT机架的母线，通过增加母线排深度和额外的冷板，可以实现700kW以上的容量 ⁶ ⁶https://www.itherm.cn/index/news/news_show/article_id/141.html。

其次是能效提升的协同效应。液冷系统的功耗与IT设备的功率密度密切相关，而配电系统的效率又直接影响到IT设备的供电质量。通过建立液冷与配电系统的动态调节机制，可以实现根据IT设备负载实时调整液冷流量和配电容量，从而最大化系统能效。通过液冷与配电系统的协同优化，可以将数据中心PUE从1.3降至1.25以下 ⁷ ⁷https://www.sohu.com/a/893134962_122081497。

而后是可靠性提升的系统级保障。液冷系统的泄漏风险与配电系统的电气安全密切相关，任何冷却液泄漏都可能造成电气短路。通过协同设计，可以建立统一的监控和预警系统，实现对液冷泄漏和电气故障的综合监测和快速响应。例如，采用介电传感器检测冷却液介电常数变化，灵敏度可达±0.5%，能够在泄漏发生的第一时间触发报警。

五、系统可靠性#

5.1 硬件故障常态化#

当前，全球科技巨头正竞相部署超大规模AI集群。英伟达的DGX SuperPOD可扩展至64个扩展单元，包含2000多个DGX B300节点 ⁴¹ ⁴¹https://docs.nvidia.com/dgx-superpod/reference-architecture/scalable-infrastructure-b300/latest/dgx-superpod-architecture.html。构建万卡集群并非上万张GPU卡简单堆叠那么简单，对于算力集群而言，规模越大，故障率往往越高，Meta官方就曾透露，在Meta的大模型Llama3.1训练过程中，其运行的1.6万张GPU训练集群每3小时就会出现一次故障 ⁴² ⁴²https://www.pconline.com.cn/focus/1877/18772662.html。

由于大规模分布式训练的高度同步性要求，在分布式训练系统中，众多加速器在同步环境中协同工作，任何一个GPU服务器组件故障都可能中断或停止训练过程。因此，万卡集群的硬件故障率呈现出显著的规模效应，即随着集群规模的扩大，故障发生的概率呈指数级增长。根据概率学计算，假设单张GPU故障率仅为十万分之一，在一张卡出现故障整体都要停止的情况下，万卡集群的总体故障率为9.5%，而十万卡集群的故障率则飙升至63.2%。

更为严峻的是实际运行数据。Meta在训练Llama 3.1时使用的包含16384个GPU的集群，在54天训练期间遇到了419次意外组件故障，平均每3小时发生一次故障。其中148次中断由H100 GPU故障引起（占30.1%），72次由HBM3内存故障导致（占17.2%），GPU相关故障合计占所有意外中断的58.7% ⁴³ ⁴³https://hub.baai.ac.cn/view/38942。

图5 万卡集群硬件故障

万卡集群的硬件故障主要集中在以下几个类型：

GPU故障是最主要的故障源，占意外中断的58.7%。常见的故障原因有Xid、ECC、NVLINK error和NCCL error故障等。对于一个千卡训练作业来说，卡故障导致一天内训练失败的概率高达到93%。作业失败后，用户需要手动重启作业，运维成本很高。如果用户重启不及时，中间间隔的时间就会导致GPU卡空闲，浪费昂贵的算力资源 ⁴⁴ ⁴⁴https://blog.csdn.net/SOFAStack/article/details/132843619。

内存故障，特别是HBM3内存故障，是第二大故障源。Meta的统计显示，HBM3内存故障占所有意外中断的17.2%。这类故障通常与GPU的高功耗和热应力有关，H100 GPU高达700W的功耗使其在运行过程中承受大量热应力。

网络故障占意外中断的8.4%。不同于其他由软件引发的故障，网络设备故障大多为硬件故障，例如网络线缆或是网卡光模块等硬件设备出现故障。相较于软件故障，硬件故障的处理难度大、恢复时间长，可能造成更大的算力损失。

其他故障包括CPU故障、存储故障、电源故障等。值得注意的是，在Meta的54天训练期间，只有两个CPU发生故障，说明CPU的可靠性远高于GPU。

H100的算力建设费用约为10元/卡/小时，若每次中断恢复需耗时1小时，那么万卡集群每次训练因网络故障造成的算力损失约为350万元 ⁴⁵ ⁴⁵https://www.ruijie.com.cn/jszl/929847/。

5.2 快速恢复机制#

Kubernetes作为容器编排的事实标准，在万卡集群的故障自动恢复中发挥着关键作用，其核心机制是通过节点控制器（node controller）周期性检查所有节点状态，当节点处于NotReady状态超过一段时间后，自动驱逐该节点上的所有Pod。

kube-controller-manager主要由多个控制器构成，而eviction的功能主要由node controller这个控制器实现。kube-controller-manager提供了以下启动参数控制驱逐策略 ⁴⁶ ⁴⁶https://blog.csdn.net/ygq13572549874/article/details/136310115：

pod-eviction-timeout：即当节点宕机该事件间隔后，开始驱逐机制，驱赶宕机节点上的Pod，默认为5min；

node-eviction-rate:驱赶速率，由令牌桶流控算法实现，默认为0.1，即每秒驱赶0.1个节点。相当于每隔10s，清空一个节点；

secondary-node-eviction-rate: 二级驱赶速率，当集群中宕机节点过多时，相应的驱赶速率也降低，默认为0.01；

unhealthy-zone-threshold：不健康zone阈值，会影响什么时候开启二级驱赶速率，默认为0.55，即当该zone中节点宕机数目超过55%，而认为该zone不健康；

large-cluster-size-threshold:大集群法制，当该zone的节点多余该阈值时，则认为该zone是一个大集群。大集群节点宕机数目超过55%时，则将驱赶速率降为0.0.1，假如是小集群，则将速率直接降为0。

全栈运行时打点技术是一种革命性的故障诊断和性能优化技术，通过在系统的各个层面插入轻量级的监控探针，实现对训练过程的全方位、实时观测。基于全栈打点技术，百度百舸将隐式故障的平均检测时间从分钟级缩短至秒级，诊断准确率提升40%以上 ⁴⁷ ⁴⁷https://www.51cto.com/article/810383.html。

图6 百度百舸集群训练稳定性全景图

秒级切换备份节点是快速恢复机制的重要组成部分，其目标是在故障发生后最短时间内启用备份资源，确保训练任务的连续性。华为的秒级恢复机制采用了分级策略：进程级重调度恢复通过参数面网络将临终Checkpoint传递到备用节点，完成参数状态恢复后继续训练，能够将训练恢复时间缩短到3分钟以内；进程级在线恢复针对硬件UCE故障，通过业务面昇腾CANN软件、框架软件、MindCluster软件配合实现故障地址在线修复，进一步将训练恢复时间缩短到30秒以内 ⁴⁸ ⁴⁸https://www.toutiao.com/article/7513927925666824719/?upstream_biz=doubao&source=m_redirect。

六、国产化与运营成本#

6.1 国产化挑战：生态与性能的双重差距#

6.1.1 GPU供应受限#

自2022年起，美国政府以"国家安全"为名，四次升级对华出口管制，从禁止A100、H100等高端芯片出售，到掐断14纳米以下技术的零部件供应，再到2025年加码限制AI芯片用于中国模型训练。2025年4月，美国政府进一步收紧对华AI芯片出口限制，直接将英伟达H100、A100等旗舰型号纳入禁止出口清单，彻底切断了其高端芯片的对华供应。2025年5月12日，美国商务部工业与安全局（BIS）发布《AI芯片出口管制指南》，不仅细化了算力限制标准，还要求向中国出口特供版芯片需抽取15%的“技术税”，且必须保留远程监控功能 ⁴⁹ ⁴⁹https://www.163.com/dy/article/KC5IFQ0105566N7W.html。

面对GPU供应受限，中国加快了国产AI芯片的研发和产业化进程。目前，华为昇腾、寒武纪等多家企业已推出多款国产NPU产品，但与英伟达GPU相比在算力上仍存在代差。例如，英伟达B300（Blackwell架构）在FP16标准下的算力约为3840 TFLOPS（FP4约15 PFLOPS），配备288GB HBM3e内存（带宽8 TB/s）；华为昇腾910C在FP16标准下的算力为800 TFLOPS。英伟达GPU的HBM内存容量与带宽领先。例如，H100配备80GB HBM3内存（带宽3 TB/s），B300升级至288GB HBM3e（带宽8 TB/s）。华为NPU通过自研HBM（如昇腾950的HiBL 1.0）弥补制程差距。例如，昇腾950PR配备128GB HBM（带宽1.6 TB/s），昇腾950DT升级至144GB HBM（带宽4 TB/s），但整体容量与带宽仍落后于英伟达。DeepSeek团队的实测数据显示，华为昇腾910C在AI推理中的表现达到英伟达H100芯片的60%左右。在训练场景下，昇腾910B的训练效率接近A100的90%。

在AI集群系统中，互联带宽和显存容量是决定系统性能的关键因素。国产NPU在这两个核心指标上与国际先进产品存在明显的代际差距，严重影响了万卡集群的整体性能。在互联技术方面，英伟达凭借其成熟的NVLink技术占据领先地位。英伟达GB200采用第五代NVLink，带宽达到1800GB/s，相较于第四代NVLink的900GB/s实现翻倍。在集群层面，英伟达NVL72系统通过NVLink 4.0（单GPU 900GB/s）结合InfiniBand（HDR 200Gbps），总带宽约14.4TB/s。相比之下，国产NPU在互联技术上采用了不同的技术路线。华为昇腾384超节点采用MatrixLink全光互联技术，总带宽达1229TB/s，芯片间时延150纳秒，而英伟达NVL72采用NVLink铜缆互联，总带宽130TB/s，GPU间时延微秒级。在显存容量方面，差距更为明显。英伟达H100配备80GB HBM3内存，带宽3TB/s；最新的B200更是升级至288GB HBM3e，带宽高达8TB/s。这种大容量高带宽的显存配置对于训练大规模模型至关重要，GPT-4级别的模型仅权重和优化器就需要10.8TB的内存。国产NPU在显存技术上虽有进步，但仍落后一代以上。华为昇腾950系列中，950PR配备128GB HBM（带宽1.6TB/s），950DT升级至144GB HBM（带宽4TB/s）。寒武纪思元系列的显存配置更低，如MLU370-X8配备48GB GDDR6显存。这种显存容量的差距直接限制了国产NPU在训练超大模型时的能力。显存技术的差距不仅体现在容量上，还体现在技术架构上。英伟达的GPU支持统一内存架构，可以实现CPU和GPU内存的统一管理，而国产NPU多采用分离式内存设计，在数据传输效率上存在劣势。此外，在HBM技术方面，国产厂商虽有突破，但在产能、良率和成本控制方面仍面临挑战。

在MFU指标上，国产万卡集群与国际先进水平仍存在差距。2025年5月发布的华为盘古Ultra MoE模型，参数规模达7180亿，具备256个路由专家，每个任务激活8个专家协同工作，在昇腾CloudMatrix 384超节点集群上，依据优化算子执行序和内存管理策略，算力利用率（MFU）从30%提升至41%。然而，这一水平与国际先进水平仍有差距。国际领先的H100集群在万亿次参数训练中，8位浮点运算可实现35%的MFU，16位浮点运算可达40%的MFU。部分优化较好的集群，MFU目标可达60%，周均训练有效率最高99%。

6.1.2 软件生态割裂#

CUDA生态系统在AI计算领域的垄断地位是国产替代面临的最大挑战之一。英伟达通过数十年的持续投入，构建了一个涵盖硬件、软件、工具链和开发者社区的完整生态系统，形成了极高的技术壁垒。CUDA生态的垄断地位体现在多个方面。首先是市场份额的绝对优势。全球90%的AI框架（包括PyTorch、TensorFlow等主流框架）依赖CUDA接口。全球超500万开发者依赖CUDA开发的代码库，涵盖科学计算、深度学习、自动驾驶等领域，迁移成本高达数亿美元量级。软件和生态成本是国产替代面临的最大隐性成本。虽然国产NPU在硬件性能上已接近国际水平，但在软件生态方面的差距导致了高昂的迁移成本。72%尝试用国产算力卡替换英伟达的机构，在3个月内仍受困于效率问题，平均需额外投入约每人每天120元的调试成本 ⁵⁰ ⁵⁰https://m.163.com/dy/article/K9OP29TO05118E4U.html。

6.2 成本与运营：千亿级投资的商业风险#

6.2.1 天量资本支出#

软件生态割裂导致高昂迁移成本。CUDA生态的垄断地位难以撼动，全球90%的AI框架依赖CUDA接口，500万开发者构建了强大的生态壁垒。国产NPU虽推出兼容层技术，但迁移成本依然高昂：华为昇腾需重写40%代码，迁移周期3个月，成本约2000万元；壁仞BR100核心算法重构比例达35%。算子适配成本普遍增加5-10%，实际项目中可能更高。

天量投资与低利用率形成尖锐矛盾。10万H100集群总投资40-60亿美元，其中硬件成本约25亿美元，年电力成本1.24亿美元。国产替代方案因单卡算力低、需更多芯片，相同算力下总成本并不占优势。更为严峻的是，全国智算中心整体利用率仅32%，部分国产算力闲置率高达70-80%，河南万卡集群利用率仅40%。

6.2.2 利用率与空转风险#

政策支持力度空前但效果有待观察。政府推出系列支持政策，2025年新型工业化专项债超三成投向算力基础设施，中央财政专项扶持资金860亿元。但政策效果的显现需要时间，特别是在生态建设、人才培养等方面，短期内难以弥补与国际先进水平的差距。

01.万卡 AI 集群建设挑战

本节目录 Contents

01.万卡 AI 集群建设挑战#

一、超万卡集群背景与趋势#

1.1 大模型驱动万卡集群建设#

1.2 万卡集群整体建设挑战#

二电力供应与散热挑战：能耗密度突破物理极限#

2.1 万卡集群功耗现状#

2.2 数据中心供电架构演进：从12V到48V直连再到垂直供电VPD#

2.3 液冷协同设计#

三、网络通信#

3.1 万卡建设互联现状#

3.2 万卡集群通信算法#

3.3 超大规模组网复杂度#

3.3.1 光模块成本激增#

3.3.2 InfiniBand协议在超大规模组网中的技术瓶颈与成本挑战#

四、计算效率#

4.1 万卡建设计算效率现状与提升策略#

4.1.1 全球万卡建设规模#

4.1.2 MFU指标定义与当前水平#

4.1.3 万卡集群效率损失的根本原因#

4.1.4 万卡集群软件适配#

4.1.5 万卡集群调度策略#

4.1.6 MoE模型的All-to-All通信压力#

4.2 分布式训练策略#

4.2.1 字节跳动MegaScale的3D并行优化技术#

4.2.2 摩尔线程夸娥集群的自适应混合并行策略#

五、系统可靠性#

5.1 硬件故障常态化#

5.2 快速恢复机制#

六、国产化与运营成本#

6.1 国产化挑战：生态与性能的双重差距#

6.1.1 GPU供应受限#

6.1.2 软件生态割裂#

6.2 成本与运营：千亿级投资的商业风险#

6.2.1 天量资本支出#

6.2.2 利用率与空转风险#

test#

本节视频#

01.万卡 AI 集群建设挑战

本节目录 Contents

01.万卡 AI 集群建设挑战#

一、超万卡集群背景与趋势#

1.1 大模型驱动万卡集群建设#

1.2 万卡集群整体建设挑战#

二 电力供应与散热挑战：能耗密度突破物理极限#

2.1 万卡集群功耗现状#

2.2 数据中心供电架构演进：从12V到48V直连再到垂直供电VPD#

2.3 液冷协同设计#

三、网络通信#

3.1 万卡建设互联现状#

3.2 万卡集群通信算法#

3.3 超大规模组网复杂度#

3.3.1 光模块成本激增#

3.3.2 InfiniBand协议在超大规模组网中的技术瓶颈与成本挑战#

四、计算效率#

4.1 万卡建设计算效率现状与提升策略#

4.1.1 全球万卡建设规模#

4.1.2 MFU指标定义与当前水平#

4.1.3 万卡集群效率损失的根本原因#

4.1.4 万卡集群软件适配#

4.1.5 万卡集群调度策略#

4.1.6 MoE模型的All-to-All通信压力#

4.2 分布式训练策略#

4.2.1 字节跳动MegaScale的3D并行优化技术#

4.2.2 摩尔线程夸娥集群的自适应混合并行策略#

五、系统可靠性#

5.1 硬件故障常态化#

5.2 快速恢复机制#

六、国产化与运营成本#

6.1 国产化挑战：生态与性能的双重差距#

6.1.1 GPU供应受限#

6.1.2 软件生态割裂#

6.2 成本与运营：千亿级投资的商业风险#

6.2.1 天量资本支出#

6.2.2 利用率与空转风险#

test#

本节视频#

二电力供应与散热挑战：能耗密度突破物理极限#