大模型训练加速#
系统讲解大模型训练加速的核心算法与技术,涵盖计算优化(Flash Attention 的演进、DS GEMM 稀疏计算与 MTP 并行)、序列优化(Ulysses 多流调度与 Ring Attention 长序列处理)、内存优化(MLA 注意力机制与梯度检查点)、混合精度训练(FP8 表示与稳定性)以及通算融合(DeepSpeed-Domini 与 FLUX 的通信计算重叠)等关键方向,旨在通过原理剖析与实现细节全面了解如何提升大模型训练效率。
详细内容#
建议优先下载 PDF 版本,PPT 版本会因为字体缺失等原因导致版本很丑哦~
大纲 |
小节 |
链接 |
状态 |
---|---|---|---|
大模型训练加速 |
|||
:sparkling_heart: |
:star2: |
:sparkling_heart: |
|
并行 实践 :computer: |
CODE 01: Flash Attention 实现 |
:white_check_mark: |
|
并行 实践 :computer: |
CODE 02: 梯度检查点内存优化 |
:white_check_mark: |
|
并行 实践 :computer: |
CODE 03: FP8 混合精度训练 |
:white_check_mark: |
|
并行 实践 :computer: |
CODE 04: Ring Attention 实践 |
:white_check_mark: |
备注#
文字课程内容正在一节节补充更新,每晚会抽空继续更新正在 AI Infra ,希望您多多鼓励和参与进来!!!
文字课程开源在 AI Infra,系列视频托管B 站和油管,PPT 开源在github,欢迎引用!
- 01.大模型训练加速
- 02.计算优化:FA 演进
- 03.从混合精度训练到 DeepGEMM
- 04.计算优化:Multi-Token 生成(DONE)
- 05.序列优化:Ulysses 并行优化
- 06.序列优化:Ring Attention
- 07.内存优化:MLA 优化算法
- 08.内存优化:梯度检查点
- 09.混合精度:FP8 混合精度训练
- 10.通算融合:DS Domino 优化
- 11.通算融合:FLUX 计算通信
- CODE 01: Flash Attention 实现
- CODE 02: 梯度检查点内存优化
- CODE 03: FP8 混合精度训练
- CODE 04: Ring Attention 实践
- 基于 Qwen3-0.6B 的 GRPO 算法实践:原理与实现