大模型后训练与强化学习

本节目录 Contents

大模型后训练与强化学习#

大模型后训练与 RL 正从“辅助对齐手段”跃升为“塑造模型行为的核心引擎”。传统 SFT 已难以满足复杂人类偏好，以 RLHF 为代表的后训练技术，通过奖励建模与策略优化，使模型输出更安全、有用、符合价值观。DPO、KTO、IPO 等无需显式奖励模型的算法迅速崛起，大幅降低训练复杂度，提升稳定性与可复现性。同时，后训练正走向多目标协同：兼顾事实性、创造性、安全性与风格控制，并与在线学习、持续对齐、模型自我进化结合。RL 不再局限于 PPO，CPO、Reinforce++、GRPO 等新算法在样本效率与训练鲁棒性上持续突破。后训练，已成为大模型从“聪明”走向“可控、可信、可协作”的关键跃迁。

详细内容#

建议优先下载 PDF 版本，PPT 版本会因为字体缺失等原因导致版本很丑哦~

大纲	小节	链接	状态
		PPT, 文章, 视频
:sparkling_heart:	:star2:	:sparkling_heart:
RL 实践 :computer:	CODE 01: 经典 InstructGPT 复现	Markdown, Jupyter, 文章	:white_check_mark:
RL 实践 :computer:	CODE 02: DPO 与 PPO 在 LLM 对比	Markdown, Jupyter, 文章	:white_check_mark:
RL 实践 :computer:	CODE 03: LLM + GRPO 实践	Markdown, Jupyter, 文章	:white_check_mark:

备注#

系列视频托管B 站和油管，PPT 开源在github，欢迎引用！

非常希望您参与到这个开源课程中，B 站给 ZOMI 留言哦！