07.大模型集群互联技术#

Author by: SingularityKChen

本章是集合通信的最后一个部分的内容,将介绍 XPU (GPU/NPU)卡间互联与 Scale-Up、节点间互联与 Scale-Out 的相关概念以及产业界 Scale-Up 和 Scale-Out 的诸多通信协议的纷争。

Scale-Up 和 Scale-Out 的背景#

大模型的参数从数十亿到数万亿级别,使得单机算力远不足以支撑训练和推理。这促使业界构建由数万卡乃至百万卡算力集群。

然而,随着算力芯片数量增加,通信开销迅速攀升,形成“通信墙”瓶颈:如果互联网络带宽和延迟跟不上,算力卡增加带来的加速比将大打折扣。

大模型训练需要数万算力芯片紧密协同,并行处理海量数据,这些算力卡间必须持续高速交换梯度、参数等数据;没有高性能互联架构,算力卡会因网络瓶颈而无法线性扩展性能。

为突破通信瓶颈,Scale-Up 与 Scale-Out 两种体系架构被结合运用: Scale-Up(纵向扩展) 指在单个超级节点/服务器内集成尽可能多的加速器,通过高速互联总线使其看似“一台机器”,减少节点内通信延迟; Scale-Out(横向扩展) 则通过集群网络将多台服务器相连,实现大规模扩容。传统上,HPC 领域更多采用 Scale-Out 的集群方式,但在大模型训练中,单节点内部署更多算力卡(Scale-Up)可以显著降低部分通信开销,从而提升整体效率。

因此,大模型训练集群往往由多算力卡超级节点(SuperPod)(如华为 CloudMatrix 384 超节点由 384 张 910C 芯片构成)通过高速网络互联组成,两种架构优势互补。

在这种背景下,各类互联技术迅猛发展,以满足大模型对低延迟、高带宽、强一致性通信的苛刻需求。

XPU 卡间互联与 Scale-Up#

PCIe 诞生的背景#

在上世纪 90 年代末,计算机 I/O 总线的发展遇到了瓶颈:传统 PCI(Peripheral Component Interconnect)总线采用并行架构,带宽在多设备共享下容易发生争用,而且随着频率提升,时钟同步和布线的复杂度急剧增加,PCI 2.0 最高 66 MHz 的频率仅能提供 533 MB/s 的带宽;与此同时,AGP(Accelerated Graphics Port)虽然为显卡带来了更高带宽,但它只服务于 GPU,无法统一所有 I/O 需求。

那时,行业亟需一种统一的高速点对点互联方式,为每个设备提供独立链路,避免带宽争用,同时利用串行化(SerDes)替代并行总线以便提升速率,并支持热插拔和可扩展的 lane 设计(x1/x4/x8/x16),从而在灵活性和扩展性上满足未来的发展需求。

当时,硬件基本上都是围绕 Intel x86 CPU 进行构建。为了能让计算机内部能够更好地传输数据,Intel 牵头设计了 PCIe 总线,在 2003 年推出 PCI Express (PCIe 1.0),作为 PCI/AGP 的继任者。它采用高速串行点对点架构,可横向扩展 lane 数,逐渐成为统一的互联标准。

PCIe Platform View (image from PCI-SIG®)

从 2003 年至今(2025 年),PCIe 已经发布了 7 个版本,带宽每三年增长一倍,已从 PCIe 1.0 最高双向 8 GB/s 跃升为 PCIe 7.0 512 GB/s。

PCI-SIG History Graphic (image from PCI-SIG®)

按照这个趋势,PCIe 8.0/9.0/10.0 标准将会在 2028 年、2031 年和 2034 年公布,其带宽将会增加到最高 4 TB/s。

PCI 版本

年份

传输速率

编码方式

x1 单向带宽

x16 双向总带宽

PCI

1992

33 MHz

32b/34b

113 MB/s

--

PCI 2.0

1993

66 MHz

64b/66b

533 MB/s

--

PCIe 1.0

2003

2.5 GT/s

8b/10b

256 MB/s

8 GB/s

PCIe 2.0

2007

5.0 GT/s

8b/10b

512 MB/s

16 GB/s

PCIe 3.0

2010

8.0 GT/s

128b/130b

1 GB/s

32 GB/s

PCIe 4.0

2017

16 GT/s

128b/130b

2 GB/s

64 GB/s

PCIe 5.0

2019

32 GT/s

128b/130b

4 GB/s

128 GB/s

PCIe 6.0

2022

64 GT/s

PAM4 + FEC

8 GB/s

256 GB/s

PCIe 7.0

2025

128 GT/s

PAM4 + FEC

16 GB/s

512 GB/s

PCIe 8.0

2028

256 GT/s

PAM16

32 GB/s

1 TB/s

华为灵渠总线#

华为同样在探索面向大模型训练的超大规模算力互联技术。由于传统计算架构难以满足 AI 时代需求,华为在 2021 年便提出设计对等架构,通过灵衢总线让 GPU、NPU 等硬件协同工作,从单机扩展到数据中心级集群。这一思路在经历数年研发后,在 2025 年华为全联接大会上,华为发布了全新的超节点互联协议灵衢 (UnifiedBus,UB),并宣布将开放灵衢 2.0 技术规范,构建开放生态。

华为的首代灵衢总线(UB 1.0)已在 Atlas 900 超节点 集群中获得验证。Atlas 900 是华为面向 AI 训练的高密度计算集群,早在 2019 年曾以 1024 颗昇腾 910 芯片的规模创下 ResNet 训练最快纪录。进入 2025 年,华为基于灵衢 1.0 打造了新一代 Atlas 900 超节点(CloudMatrix 384),单机柜支持 384 张昇腾加速卡,并于 2025 年 3 月开始交付商业部署。灵衢总线在 Atlas 900 上实现了单柜内多板协同,为 GPU/NPU 提供统一互联。此外,灵衢 1.0 还支持 CPU 与 NPU 间的直连,突破传统 CPU-加速器架构瓶颈。

在灵衢 1.0 基础上,华为迅速改进推出灵衢 2.0,进一步完善协议、优化性能并提升可扩展规模。2025 年 9 月,华为发布了基于灵衢 2.0 的新一代超节点 Atlas 950 SuperPod(支持 8192 张昇腾卡)和 Atlas 960 SuperPod(支持 15,488 张卡)的产品,并构建了由 64 个 Atlas 950 超节点互联组成的 Atlas 950 SuperCluster 集群,整体连接 52 万多张 Ascend 950 加速卡,FP8 算力高达 524 EFLOPS。这是目前全球算力规模最大的 AI 集群之一。相比之下,NVIDIA 计划 2026 年推出的 NVL144 超节点(144 卡)在规模上远小于 Atlas 950。灵衢总线在如此庞大系统中,实现了跨机柜的统一互联和全局内存访问。

灵衢 (UB) 总线的设计核心是在长距离、高可靠与大带宽、低时延之间取得平衡。为此,华为在多方面进行了创新。

灵衢协议内建了纳秒级故障检测和保护切换机制,可在亚微秒内感知链路故障并迅速冗余切换。同时,华为重新定义了光模块和互联芯片,使其既能支持远距离多机柜互联,又满足电信级可靠性要求。这解决了以往电互联距离短、光互联可靠性不足的难题,使多柜级互联成为可能。

灵衢总线采用多端口聚合和高密度封装技术,提升单节点带宽,并通过平等架构与统一协议降低通信栈开销。Atlas 950 超节点实现了 2.1 μs 的跨节点延迟,比业界最好水平 3 μs 进一步降低 24%。在互联拓扑上,灵衢 2.0 引入了 UB-Mesh 递归直连架构:机柜内采用二维全互联(2D-FullMesh),直接连通 64 卡内所有节点;机柜间通过一层 UB Switch 交换机相连,可线性扩展至 8192 卡无阻塞全互联。这一 nD-FullMesh 拓扑优先就近直连,最大限度减少数据跨越距离和交换跳数,在保证性能的同时控制成本。若需要更大规模,UB 还支持多级交换级联,以及通过 UBoE(UB over Ethernet)与以太网交换机互联或 OCS 光路交换,实现 >8192 卡 的灵活扩展。

UBoE 模式下,灵衢协议封装在以太网上传输,使现有数据中心以太网设施也能参与 UB 组网。相比传统 RoCE 方案,UBoE 进一步降低了静态时延、提高可靠性,并减少所需交换机和光模块数量。据华为数据,构建相同规模集群,采用 RoCE 需约 4.5 万台交换机和 300 万光模块,而 UBoE 仅需 3.9 万交换机和 222 万光模块,显著节省基础设施。

华为对灵衢总线寄予厚望,认为“超节点+集群”架构将成为新型算力基础设施,实现像单机一样调度上百万加速卡。华为已宣布开放灵衢 2.0 规范,邀请产业伙伴基于该总线开发产品,共建开放生态。这意味着灵衢有可能成为中国主导的算力互连标准。在 2025 年 8 月的 Hot Chips 大会上,华为分享了 UB-Mesh 架构细节,并表示将在稍后开源该协议,实现社区共建。

灵衢与前述的 UALink 一样,体现了业界追求开放通用加速器互连的潮流:前者侧重超大规模 AI 集群的整体架构设计,后者侧重标准化的链路/交换规范,二者共同指向一个没有封闭壁垒的大算力互联未来。

Scale-Up fabric 与其他 Scale-Up 协议#

Scale-Up 的 fabric 首先要在一个受限物理域里,把几十到上千个加速器组织成统一的计算与内存池。这要求链路具备内存语义(load/store、原子操作)以支撑直接访存,而不是仅靠消息传递;并要求在端到端极低时延下提供有序或可选无序的可靠传输与无损链路(链路层重传或 PFC/CBFC),以保证同步与集合通信的确定性。

除了 NVLink 之前,目前业内还有 ETH-X、OISA、SUE、UALink、UB 等协议。

节点间互联与 Scale-Out#

Broadcom 在 2025 年 4 月的 OCP 全球峰会上发布了 SUE,以解决标准以太网在横向扩展方面的问题。

本节视频#

引用#