阿里通义推出SAPO这项全称为 Soft Adaptive Policy Optimization(软自适应策略优化) 的新方法,旨在解决大语言模型(LLM)在强化学习训练中的稳定性难题。
需要说明的是,搜索结果中存在一项更早但不同领域的同名研究“Self-Augmented Preference Optimization”(发表于2024年5月),它主要关注模型与人类偏好的对齐。你关心的、由阿里通义团队推出的这项新技术,是2025年11月底正式发布的。
技术核心:用“软门控”替代“硬裁剪”
SAPO的创新核心在于,用一个平滑、自适应的“软门控”机制,取代了传统强化学习方法中简单粗暴的“硬裁剪”。
简单来说,旧方法为了防止训练崩溃,会直接“一刀切”地将超出范围的梯度丢弃。但这带来了两个问题:一是有效学习信号被大量浪费;二是设置裁剪范围时难以平衡,太窄会没梯度,太宽又会引入噪音。
SAPO的“软门控”则像是一个智能调音器:
它不会因为少数异常的词元(token)而屏蔽整个句子(序列)的梯度。例如,当一个句子中只有几个词元不正常时,旧方法(GSPO)会丢弃整个句子的学习机会,而SAPO能选择性地降低异常词元的权重,保留其他正常词元的学习信号,大大提高了数据利用效率。
为了让你更清晰地理解SAPO的进步,下表将其与之前的两种主要方法进行了对比:
| 特性 | GRPO (旧方法) | GSPO (旧方法) | SAPO (新方法) |
|---|---|---|---|
| 优化层级 | 词元级 (Token-level) | 序列级 (Sequence-level) | 兼具序列一致性与词元自适应性 |
| 核心机制 | 对每个词元进行硬裁剪 | 对整个序列进行硬裁剪 | 平滑的温度控制软门控 |
| 信号处理 | 丢弃超出裁剪范围的单个词元梯度 | 若序列中有异常词元,则丢弃整个序列的梯度 | 选择性衰减异常词元权重,保留大部分有效信号 |
| 信任区域 | 不连续 | 不连续 | 连续 |
应用效果:更稳定,性能更高
根据论文和报道,SAPO在多个基准测试中展现了优异效果:
提升训练稳定性与最终性能:在数学(AIME25)、编码(LiveCodeBench)、逻辑推理(ZebraLogic)等任务上,使用相同计算资源,SAPO相比前代方法获得了更高的通过率(Pass@1),并且训练过程更加稳定。
技术演进:从GRPO、GSPO到SAPO
SAPO并非孤立出现,它是阿里通义团队在LLM强化学习优化路径上的最新成果。这条路径清晰反映了研究重心的演进:
总结
总而言之,阿里通义推出的SAPO是一种更先进、更智能的强化学习优化器。它通过创新的“软门控”设计,巧妙地解决了训练稳定性和学习效率之间的矛盾,让大语言模型能够更稳健、更高效地从反馈中学习,从而变得“更稳更强”。
发表评论 取消回复