7*24 快讯

阿里Qwen提出强化学习新算法GSPO

通义千问Qwen,为了能够持续拓展强化学习 (Reinforcement Learning,RL),提出了Group Sequence Policy Optimization (GSPO) 算法。不同于过去的RL算法,GSPO定义了序列级别的重要性比率,并在序列层面执行裁剪、奖励和优化。

相较于GRPO,GSPO在以下方面展现出突出优势:

强大高效:GSPO具备显著更高的训练效率,并且能够通过增加计算获得持续的性能提升;

稳定性出色:GSPO能够保持稳定的训练过程,并且根本地解决了混合专家(Mixture-of-Experts,MoE)模型的RL训练稳定性问题;

基础设施友好:由于在序列层面执行优化,GSPO原则上对精度容忍度更高,具有简化RL基础设施的诱人前景。

以上优点促成了最新的Qwen3模型(Instruct、Coder、Thinking)的卓越性能。

通义千问Qwen观察到,现有的RL算法在长期训练中会暴露出严重的不稳定性问题并招致不可逆转的模型崩溃,阻碍了通过增加计算以获得进一步的性能提升。