07.大模型集群互联技术#

Author by: SingularityKChen

本章是集合通信的最后一个部分的内容,将介绍 XPU (GPU/NPU)卡间互联与 Scale-Up、节点间互联与 Scale-Out 的相关概念以及产业界 Scale-Up 和 Scale-Out 的诸多通信协议的纷争。

Scale-Up 和 Scale-Out 的背景#

大模型的参数从数十亿到数万亿级别,使得单机算力远不足以支撑训练和推理。这促使业界构建由数万卡乃至百万卡算力集群。

然而,随着算力芯片数量增加,通信开销迅速攀升,形成“通信墙”瓶颈:如果互联网络带宽和延迟跟不上,算力卡增加带来的加速比将大打折扣。

大模型训练需要数万算力芯片紧密协同,并行处理海量数据,这些算力卡间必须持续高速交换梯度、参数等数据;没有高性能互联架构,算力卡会因网络瓶颈而无法线性扩展性能。

为突破通信瓶颈,Scale-Up 与 Scale-Out 两种体系架构被结合运用: Scale-Up(纵向扩展) 指在单个超级节点/服务器内集成尽可能多的加速器,通过高速互联总线使其看似“一台机器”,减少节点内通信延迟; Scale-Out(横向扩展) 则通过集群网络将多台服务器相连,实现大规模扩容。传统上,HPC 领域更多采用 Scale-Out 的集群方式,但在大模型训练中,单节点内部署更多算力卡(Scale-Up)可以显著降低部分通信开销,从而提升整体效率。

因此,大模型训练集群往往由多算力卡超级节点(SuperPod)(如华为 CloudMatrix 384 超节点由 384 张 910C 芯片构成)通过高速网络互联组成,两种架构优势互补。

在这种背景下,各类互联技术迅猛发展,以满足大模型对低延迟、高带宽、强一致性通信的苛刻需求。

XPU 卡间互联与 Scale-Up#

PCIe 诞生的背景#

在上世纪 90 年代末,计算机 I/O 总线的发展遇到了瓶颈:传统 PCI(Peripheral Component Interconnect)总线采用并行架构,带宽在多设备共享下容易发生争用,而且随着频率提升,时钟同步和布线的复杂度急剧增加,PCI 2.0 最高 66 MHz 的频率仅能提供 533 MB/s 的带宽;与此同时,AGP(Accelerated Graphics Port)虽然为显卡带来了更高带宽,但它只服务于 GPU,无法统一所有 I/O 需求。

那时,行业亟需一种统一的高速点对点互联方式,为每个设备提供独立链路,避免带宽争用,同时利用串行化(SerDes)替代并行总线以便提升速率,并支持热插拔和可扩展的 lane 设计(x1/x4/x8/x16),从而在灵活性和扩展性上满足未来的发展需求。

当时,硬件基本上都是围绕 Intel x86 CPU 进行构建。为了能让计算机内部能够更好地传输数据,Intel 牵头设计了 PCIe 总线,在 2003 年推出 PCI Express (PCIe 1.0),作为 PCI/AGP 的继任者。它采用高速串行点对点架构,可横向扩展 lane 数,逐渐成为统一的互联标准。

PCIe Platform View (image from PCI-SIG®)

从 2003 年至今(2025 年),PCIe 已经发布了 7 个版本,带宽每三年增长一倍,已从 PCIe 1.0 最高双向 8 GB/s 跃升为 PCIe 7.0 512 GB/s。

PCI-SIG History Graphic (image from PCI-SIG®)

按照这个趋势,PCIe 8.0/9.0/10.0 标准将会在 2028 年、2031 年和 2034 年公布,其带宽将会增加到最高 4 TB/s。

PCI 版本

年份

传输速率

编码方式

x1 单向带宽

x16 双向总带宽

PCI

1992

33 MHz

32b/34b

113 MB/s

--

PCI 2.0

1993

66 MHz

64b/66b

533 MB/s

--

PCIe 1.0

2003

2.5 GT/s

8b/10b

256 MB/s

8 GB/s

PCIe 2.0

2007

5.0 GT/s

8b/10b

512 MB/s

16 GB/s

PCIe 3.0

2010

8.0 GT/s

128b/130b

1 GB/s

32 GB/s

PCIe 4.0

2017

16 GT/s

128b/130b

2 GB/s

64 GB/s

PCIe 5.0

2019

32 GT/s

128b/130b

4 GB/s

128 GB/s

PCIe 6.0

2022

64 GT/s

PAM4 + FEC

8 GB/s

256 GB/s

PCIe 7.0

2025

128 GT/s

PAM4 + FEC

16 GB/s

512 GB/s

PCIe 8.0

2028

256 GT/s

PAM16

32 GB/s

1 TB/s

华为灵渠总线#

Scale-Up fabric 与其他 Scale-Up 协议#

Scale-Up 的 fabric 首先要在一个受限物理域里,把几十到上千个加速器组织成统一的计算与内存池。这要求链路具备内存语义(load/store、原子操作)以支撑直接访存,而不是仅靠消息传递;并要求在端到端极低时延下提供有序或可选无序的可靠传输与无损链路(链路层重传或 PFC/CBFC),以保证同步与集合通信的确定性。

除了 NVLink 之前,目前业内还有 ETH-X、OISA、SUE、UALink、UB 等协议。

Broadcom 在 2025 年 4 月的 OCP 全球峰会上发布了 SUE,以解决标准以太网在横向扩展方面的问题。

UALink 1.0 将内存语义作为核心能力,规定读、写与原子事务,由软件维持一致性,同时支持 1024 个端点的单域扩展;其物理与链路层基于 200G/lane(212.5 GT/s 信令)SerDes。

节点间互联与 Scale-Out#

本节视频#

引用#