阿里通义推出SAPO这项全称为 Soft Adaptive Policy Optimization(软自适应策略优化) 的新方法,旨在解决大语言模型(LLM)在强化学习训练中的稳定性难题

需要说明的是,搜索结果中存在一项更早但不同领域的同名研究“Self-Augmented Preference Optimization”(发表于2024年5月),它主要关注模型与人类偏好的对齐。你关心的、由阿里通义团队推出的这项新技术,是2025年11月底正式发布的

技术核心:用“软门控”替代“硬裁剪”

SAPO的创新核心在于,用一个平滑、自适应的“软门控”机制,取代了传统强化学习方法中简单粗暴的“硬裁剪”

简单来说,旧方法为了防止训练崩溃,会直接“一刀切”地将超出范围的梯度丢弃。但这带来了两个问题:一是有效学习信号被大量浪费;二是设置裁剪范围时难以平衡,太窄会没梯度,太宽又会引入噪音

SAPO的“软门控”则像是一个智能调音器:

  • 它不会因为少数异常的词元(token)而屏蔽整个句子(序列)的梯度。例如,当一个句子中只有几个词元不正常时,旧方法(GSPO)会丢弃整个句子的学习机会,而SAPO能选择性地降低异常词元的权重,保留其他正常词元的学习信号,大大提高了数据利用效率

  • 它形成了一个连续的信任区域,避免了旧方法因硬性截断带来的训练不连续性,让优化过程更平稳

为了让你更清晰地理解SAPO的进步,下表将其与之前的两种主要方法进行了对比:

特性GRPO (旧方法)GSPO (旧方法)SAPO (新方法)
优化层级词元级 (Token-level)序列级 (Sequence-level)兼具序列一致性与词元自适应性
核心机制对每个词元进行硬裁剪对整个序列进行硬裁剪平滑的温度控制软门控
信号处理丢弃超出裁剪范围的单个词元梯度若序列中有异常词元,则丢弃整个序列的梯度选择性衰减异常词元权重,保留大部分有效信号
信任区域不连续不连续连续

应用效果:更稳定,性能更高

根据论文和报道,SAPO在多个基准测试中展现了优异效果:

  1. 提升训练稳定性与最终性能:在数学(AIME25)、编码(LiveCodeBench)、逻辑推理(ZebraLogic)等任务上,使用相同计算资源,SAPO相比前代方法获得了更高的通过率(Pass@1),并且训练过程更加稳定

  2. 擅长处理复杂模型:该方法在结构复杂的专家混合模型(MoE) 上表现尤其出色,能有效应对其内部的高方差问题

  3. 已应用于实际模型:研究团队已使用SAPO来训练 Qwen3-VL系列模型,并观察到了跨任务和模型规模的一致性性能提升

技术演进:从GRPO、GSPO到SAPO

SAPO并非孤立出现,它是阿里通义团队在LLM强化学习优化路径上的最新成果。这条路径清晰反映了研究重心的演进:

  • GRPO:作为早期重要的组相对策略优化方法,它奠定了基础,但存在词元级高方差导致不稳定的问题

  • GSPO:作为重要改进,它将优化单位从词元提升到整个序列,显著增强了训练稳定性

  • SAPO:在前者基础上,通过引入软门控机制,在保持序列级稳定优点的同时,又实现了词元级的精细化自适应调控,在稳定性和信号利用率上达到了新的平衡

总结

总而言之,阿里通义推出的SAPO是一种更先进、更智能的强化学习优化器。它通过创新的“软门控”设计,巧妙地解决了训练稳定性和学习效率之间的矛盾,让大语言模型能够更稳健、更高效地从反馈中学习,从而变得“更稳更强”。

点赞(0)

评论列表 共有 0 条评论

暂无评论
立即
投稿
发表
评论
返回
顶部