大模型并行进阶#
分布式训练可以将模型训练任务分配到多个计算节点上,从而加速训练过程并处理更大的数据集。模型是一个有机的整体,简单增加机器数量并不能提升算力,需要有并行策略和通信设计,才能实现高效的并行训练。本节将会重点打开业界主流的分布式并行框架 DeepSpeed、Megatron-LM 的核心多维并行的特性来进行原理介绍。
内容大纲#
大纲 |
小节 |
链接 |
状态 |
---|---|---|---|
分布式并行 |
01 优化器并行 ZeRO1/2/3 原理 |
||
分布式并行 |
02 Megatron-LM 代码概览 |
||
分布式并行 |
03 大模型并行与 GPU 集群配置 |
||
分布式并行 |
04 Megatron-LM TP 原理 |
||
分布式并行 |
05 Megatron-LM TP 代码解析 |
||
分布式并行 |
06 Megatron-LM SP 代码解析 |
||
分布式并行 |
07 Megatron-LM PP 基本原理 |
||
分布式并行 |
08 流水并行 1F1B/1F1B Interleaved 原理 |
||
分布式并行 |
09 Megatron-LM 流水并行 PP 代码解析 |
||
:sparkling_heart: |
:star2: |
:sparkling_heart: |
|
并行 实践 :computer: |
CODE 01: ZeRO 显存优化实践 |
:white_check_mark: |
|
并行 实践 :computer: |
CODE 02: Megatron 张量并行复现 |
:white_check_mark: |
|
并行 实践 :computer: |
CODE 03: Pipeline 并行实践 |
:white_check_mark: |
|
并行 实践 :computer: |
CODE 04: 专家并行大规模训练 |
:white_check_mark: |
备注#
文字课程内容正在一节节补充更新,每晚会抽空继续更新正在 AI Infra ,希望您多多鼓励和参与进来!!!