GSPO#
一、引言:为什么需要学习 GSPO?#
在 LLM (LLM)的训练流程中,强化学习(RL)是提升模型高阶能力(如推理、复杂指令遵循)的关键环节。Qwen3 作为当前主流的大模型之一,其性能提升的核心秘诀在于采用了组序列策略优化(Group Sequence Policy Optimization, GSPO) 算法。
本文档将系统解析 GSPO 的原理、创新点及实验效果,下面是具体内容
大模型强化学习的核心挑战
GSPO 如何突破传统算法的局限
序列级优化对模型训练的重要意义
二、LLM 强化学习基础#
2.1 大模型训练的三个阶段#
预训练:通过海量文本学习语言规律和知识
监督微调:使用高质量问答数据调教模型的对话能力
强化学习:提升推理、复杂指令遵循等高阶能力(本文重点)
2.2 PPO:强化学习的主流框架#
PPO(Proximal Policy Optimization)的核心思想是**"小步快跑,保持稳定"**:
基于模型生成的回答(动作)和对应的奖励信号优化模型
通过限制新策略与旧策略的差异(近端优化)保证训练稳定
关键工具:重要性采样(解决用旧数据训练新模型的偏差问题)
重要性采样公式#
2.3 PPO 的局限#
需要额外的价值模型(Critic Model) 预测未来期望回报
价值模型与策略模型规模相当,训练成本高且估算不准
是整个系统中最脆弱的环节之一
三、前人算法的探索与局限#
3.1 GRPO:摆脱价值模型的尝试#
GRPO(Group Relative Policy Optimization)的创新点:
用组内奖励平均值替代价值模型作为基准
对同一问题生成多个回答,通过相对排名计算优势(Advantage)
例:4 个回答得分 95、70、85、80,平均分 82.5
优势 = 回答得分 - 平均分(A 的优势为+12.5,B 为-12.5)
3.2 GRPO 的核心缺陷#
在token 级别计算重要性权重,违背重要性采样理论
单 token 的权重充满随机噪声,且随序列长度增加累积
导致训练不稳定,甚至模型崩溃
在混合专家(MoE)模型上问题更严重
3.3 路由回放(Routing Replay)的无奈#
为缓解 GRPO 在 MoE 上的问题而设计的补丁:
记录每个 token 由哪些专家处理
优化时强制新模型使用相同的专家指派
增加系统复杂性,限制模型探索能力
四、GSPO 的核心机制#
4.1 核心思想#
奖励的单位应与优化的单位相匹配:
奖励是针对整个回答序列的,因此优化也应在序列层面进行
类比:老师批改作文是给全文打分,而非逐字打分
4.2 序列级重要性权重#
\(\pi_{\theta}(y_i|x)\) 表示在新策略参数 \(\theta\) 下,输入 \(x\) 生成序列 \(y_i\) 的概率;
\(|y_i|\) 表示序列 \(y_i\) 的长度(token 数);
\(\pi_{\theta_{\text{old}}}(y_i|x)\) 表示在旧策略参数 \(\theta_{\text{old}}\) 下的概率。
4.3 为什么 GSPO 更稳定?#
算法 |
指挥信号特点 |
训练效果 |
---|---|---|
GRPO |
对每个词元单独赋值(如"A 词 1.2 倍,B 词 0.9 倍") |
指令矛盾,噪声大 |
GSPO |
对整个序列统一赋值(如"整体 1.1 倍") |
方向一致,更稳定 |
五、GSPO 的实验效果#
5.1 核心发现一:更稳、更快、更强#
在相同资源下,训练奖励和下游任务性能持续优于 GRPO
收敛速度更快,最终性能更高
5.2 核心发现二:反直觉的"裁剪悖论"#
GSPO 裁剪掉的词元比例远高于 GRPO(近两个数量级)
但学习效果更好,证明:学习信号的质量远比数量重要
类比:经验丰富的投资者只重仓优质项目,而非分散投资
5.3 核心发现三:MoE 模型上的优势#
无需路由回放即可稳定训练 MoE 模型
对底层专家组合变化不敏感(关注整体序列概率)
显著简化训练流程,降低工程复杂度
六、GSPO 的贡献与局限#
6.1 主要贡献#
理论创新:指出词元级重要性采样的缺陷,回归序列级优化
算法提升:通过序列级权重和长度归一化提升稳定性与效率
工程简化:移除对路由回放等复杂技巧的依赖
实际验证:在 Qwen3 中成功应用,展现工业级有效性
6.2 局限性#
仅用单一奖励评价整个序列,无法区分长回复中的优劣部分
性能依赖奖励模型质量,可能放大奖励模型的偏见
在需要词元级反馈的任务(如代码调试)中可能不占优
在创意写作等主观领域的效果尚需验证