大模型并行进阶

本节目录 Contents

大模型并行进阶#

分布式训练可以将模型训练任务分配到多个计算节点上,从而加速训练过程并处理更大的数据集。模型是一个有机的整体，简单增加机器数量并不能提升算力，需要有并行策略和通信设计，才能实现高效的并行训练。本节将会重点打开业界主流的分布式并行框架 DeepSpeed、Megatron-LM 的核心多维并行的特性来进行原理介绍。

内容大纲#

大纲	小节	链接	状态
分布式并行	01 优化器并行 ZeRO1/2/3 原理	PPT, 视频
分布式并行	02 Megatron-LM 代码概览	PPT, 视频
分布式并行	03 大模型并行与 GPU 集群配置	PPT, 视频
分布式并行	04 Megatron-LM TP 原理	PPT, 视频
分布式并行	05 Megatron-LM TP 代码解析	PPT, 视频
分布式并行	06 Megatron-LM SP 代码解析	PPT, 视频
分布式并行	07 Megatron-LM PP 基本原理	PPT, 视频
分布式并行	08 流水并行 1F1B/1F1B Interleaved 原理	PPT, 视频
分布式并行	09 Megatron-LM 流水并行 PP 代码解析	PPT, 视频
:sparkling_heart:	:star2:	:sparkling_heart:
并行实践 :computer:	CODE 01: ZeRO 显存优化实践	Markdown, Jupyter, 文章	:white_check_mark:
并行实践 :computer:	CODE 02: Megatron 张量并行复现	Markdown, Jupyter, 文章	:white_check_mark:
并行实践 :computer:	CODE 03: Pipeline 并行实践	Markdown, Jupyter, 文章	:white_check_mark:
并行实践 :computer:	CODE 04: 专家并行大规模训练	Markdown, Jupyter, 文章	:white_check_mark:

备注#

文字课程内容正在一节节补充更新，每晚会抽空继续更新正在 AI Infra ，希望您多多鼓励和参与进来！！！

文字课程开源在 AI Infra，系列视频托管B 站和油管，PPT 开源在github，欢迎引用！