大模型后训练与强化学习#
大模型后训练与 RL 正从“辅助对齐手段”跃升为“塑造模型行为的核心引擎”。传统 SFT 已难以满足复杂人类偏好,以 RLHF 为代表的后训练技术,通过奖励建模与策略优化,使模型输出更安全、有用、符合价值观。DPO、KTO、IPO 等无需显式奖励模型的算法迅速崛起,大幅降低训练复杂度,提升稳定性与可复现性。同时,后训练正走向多目标协同:兼顾事实性、创造性、安全性与风格控制,并与在线学习、持续对齐、模型自我进化结合。RL 不再局限于 PPO,CPO、Reinforce++、GRPO 等新算法在样本效率与训练鲁棒性上持续突破。后训练,已成为大模型从“聪明”走向“可控、可信、可协作”的关键跃迁。
详细内容#
建议优先下载 PDF 版本,PPT 版本会因为字体缺失等原因导致版本很丑哦~
大纲 |
小节 |
链接 |
状态 |
---|---|---|---|
:sparkling_heart: |
:star2: |
:sparkling_heart: |
|
RL 实践 :computer: |
CODE 01: 经典 InstructGPT 复现 |
:white_check_mark: |
|
RL 实践 :computer: |
CODE 02: DPO 与 PPO 在 LLM 对比 |
:white_check_mark: |
|
RL 实践 :computer: |
CODE 03: LLM + GRPO 实践 |
:white_check_mark: |
备注#
系列视频托管B 站和油管,PPT 开源在github,欢迎引用!
非常希望您参与到这个开源课程中,B 站给 ZOMI 留言哦!