大模型训练概述

本节目录 Contents

大模型训练概述#

大模型训练的核心特点在于大规模分布式训练和高效 AI 框架的协同。分布式训练通过数据并行、模型并行等技术，将计算任务分散到多个 GPU 或节点，显著提升训练速度与规模。AI 框架（如 PyTorch）提供分布式支持、混合精度计算和梯度优化，确保高效资源利用与稳定收敛。两者结合，使训练千亿级参数的模型成为可能，同时降低硬件成本与能耗。

课程位置#

AI Infra

课程简介#

《1. 分布式并行基础》：大模型分布式并行通过数据并行、模型并行和流水线并行等策略，将计算任务分布到多个设备上，以解决单设备内存和算力不足的问题。数据并行复制模型，分发数据；模型并行分割参数；流水线并行分阶段处理。混合并行结合多种方法优化效率，同时需解决通信开销和负载均衡等挑战，提升训练速度与扩展性。

大纲	小节	链接	状态
分布式并行	01 分布式并行框架介绍	PPT, 视频
分布式并行	02 DeepSpeed 介绍	PPT, 视频
并行实践 :computer:	CODE 01: CODE 01: 从零构建 PyTorch DDP	Markdown, Jupyter, 文章	:white_check_mark:
并行实践 :computer:	CODE 02: CODE 01: PyTorch 实现模型并行	Markdown, Jupyter, 文章	:white_check_mark:

《2. 分布式并行进阶》：大模型分布式并行通过数据并行、模型并行和流水线并行等策略，将计算任务分布到多个设备上，以解决单设备内存和算力不足的问题。数据并行复制模型，分发数据；模型并行分割参数；流水线并行分阶段处理。混合并行结合多种方法优化效率，同时需解决通信开销和负载均衡等挑战，提升训练速度与扩展性。

大纲	小节	链接	状态
分布式并行	01 优化器并行 ZeRO1/2/3 原理	PPT, 视频
分布式并行	02 Megatron-LM 代码概览	PPT, 视频
分布式并行	03 大模型并行与 GPU 集群配置	PPT, 视频
分布式并行	04 Megatron-LM TP 原理	PPT, 视频
分布式并行	05 Megatron-LM TP 代码解析	PPT, 视频
分布式并行	06 Megatron-LM SP 代码解析	PPT, 视频
分布式并行	07 Megatron-LM PP 基本原理	PPT, 视频
分布式并行	08 流水并行 1F1B/1F1B Interleaved 原理	PPT, 视频
分布式并行	09 Megatron-LM 流水并行 PP 代码解析	PPT, 视频
:sparkling_heart:	:star2:	:sparkling_heart:
并行实践 :computer:	CODE 01: ZeRO 显存优化实践	Markdown, Jupyter, 文章	:white_check_mark:
并行实践 :computer:	CODE 02: Megatron 张量并行复现	Markdown, Jupyter, 文章	:white_check_mark:
并行实践 :computer:	CODE 03: Pipeline 并行实践	Markdown, Jupyter, 文章	:white_check_mark:
并行实践 :computer:	CODE 04: 专家并行大规模训练	Markdown, Jupyter, 文章	:white_check_mark:

《大模型训练加速》：系统讲解大模型训练加速的核心算法与技术，涵盖计算优化（Flash Attention 的演进、DS GEMM 稀疏计算与 MTP 并行）、序列优化（Ulysses 多流调度与 Ring Attention 长序列处理）、内存优化（MLA 注意力机制与梯度检查点）、混合精度训练（FP8 表示与稳定性）以及通算融合（DeepSpeed-Domini 与 FLUX 的通信计算重叠）等关键方向，旨在通过原理剖析与实现细节全面了解如何提升大模型训练效率。

大纲	小节	链接	状态
大模型训练加速		PPT, 文章, 视频
:sparkling_heart:	:star2:	:sparkling_heart:
并行实践 :computer:	CODE 01: Flash Attention 实现	Markdown, Jupyter, 文章	:white_check_mark:
并行实践 :computer:	CODE 02: 梯度检查点内存优化	Markdown, Jupyter, 文章	:white_check_mark:
并行实践 :computer:	CODE 03: FP8 混合精度训练	Markdown, Jupyter, 文章	:white_check_mark:
并行实践 :computer:	CODE 04: Ring Attention 实践	Markdown, Jupyter, 文章	:white_check_mark:

《后训练与强化学习》：大模型后训练与 RL 正从“辅助对齐手段”跃升为“塑造模型行为的核心引擎”。传统 SFT 已难以满足复杂人类偏好，以 RLHF 为代表的后训练技术，通过奖励建模与策略优化，使模型输出更安全、有用、符合价值观。DPO、KTO、IPO 等无需显式奖励模型的算法迅速崛起，大幅降低训练复杂度，提升稳定性与可复现性。同时，后训练正走向多目标协同：兼顾事实性、创造性、安全性与风格控制，并与在线学习、持续对齐、模型自我进化结合。RL 不再局限于 PPO，CPO、Reinforce++、GRPO 等新算法在样本效率与训练鲁棒性上持续突破。后训练，已成为大模型从“聪明”走向“可控、可信、可协作”的关键跃迁。

大纲	小节	链接	状态
		PPT, 文章, 视频
:sparkling_heart:	:star2:	:sparkling_heart:
RL 实践 :computer:	CODE 01: 经典 InstructGPT 复现	Markdown, Jupyter, 文章	:white_check_mark:
RL 实践 :computer:	CODE 02: DPO 与 PPO 在 LLM 对比	Markdown, Jupyter, 文章	:white_check_mark:
RL 实践 :computer:	CODE 03: LLM + GRPO 实践	Markdown, Jupyter, 文章	:white_check_mark:

《大模型微调 SFT》：大模型微调正从“全参训练”的粗放模式，快速演进为“高效、可控、任务自适应”的精细化工程体系。2024 年以来，以 LoRA 为代表的参数高效微调（PEFT）已成工业标配，而 QLoRA、DoRA、PiSSA 等新方法进一步突破显存与表达力瓶颈，使 70B 级模型可在消费级 GPU 上微调。数据层面，合成指令（如 Evol-Instruct、Self-Rewarding）与课程学习策略大幅提升样本质量与训练稳定性。训练策略上，多阶段渐进微调、损失函数定制、梯度裁剪优化等技巧显著提升收敛效率与泛化能力。更重要的是，微调不再孤立，它正与 RLHF、DPO、模型编辑等对齐技术深度融合，构建“训练-对齐-评估”闭环。微调，成为释放大模型垂直领域的核心钥匙。

大纲	小节	链接	状态
		PPT, 文章, 视频
:sparkling_heart:	:star2:	:sparkling_heart:
SFT 实践 :computer:	CODE 01: Qwen3-4B 模型微调	Markdown, Jupyter, 文章	:white_check_mark:
SFT 实践 :computer:	CODE 02: LoRA 微调 SD	Markdown, Jupyter, 文章	:white_check_mark:

《大模型验证评估》：大模型评估正从“单一指标打分”迈向“多维动态对齐”的新阶段。随着模型能力跃升，传统自动指标（如 BLEU、ROUGE）已难以反映真实语义与人类偏好，业界正转向以 GPT-4、Claude 等强模型作为裁判的自动化评估（如 AlpacaEval、MT-Bench），并结合多维度人工评测（有用性、安全性、事实性、风格一致性）。同时，评估范式从静态测试集走向动态对抗（如 HELM、Big-Bench Hard）、领域专项（医疗、法律、代码）和长上下文压力测试。近年来，评估更强调“对齐人类意图”与“价值观校准”，引入偏好一致性、幻觉检测、可解释性追踪等新维度。大模型评估，已不仅是性能度量，更是模型可信、可控、可落地的核心保障体系。

大纲	小节	链接	状态
		PPT, 文章, 视频
:sparkling_heart:	:star2:	:sparkling_heart:
EVA 实践 :computer:	CODE 01: OpenCompass 评估实践	Markdown, Jupyter, 文章	:white_check_mark:

希望这个系列能够给朋友们带来一些帮助，也希望 ZOMI 能够继续坚持完成所有内容哈！欢迎您也参与到这个开源课程的贡献！

课程知识#

AI Infra

备注#

文字课程开源在 AI Infra，系列视频托管B 站和油管，PPT 开源在github，欢迎引用！

欢迎大家使用的过程中发现 bug 或者勘误直接提交 PR 到开源社区哦！

请大家尊重开源和 ZOMI 和贡献者的努力，引用 PPT 的内容请规范转载标明出处哦！