阿里通义Qwen团队推出的SAPO新型强化学习方法

17 阅读 0 评论 0 点赞

阿里通义推出SAPO这项全称为 Soft Adaptive Policy Optimization（软自适应策略优化）的新方法，旨在解决大语言模型（LLM）在强化学习训练中的稳定性难题。

需要说明的是，搜索结果中存在一项更早但不同领域的同名研究“Self-Augmented Preference Optimization”（发表于2024年5月），它主要关注模型与人类偏好的对齐。你关心的、由阿里通义团队推出的这项新技术，是2025年11月底正式发布的。

SAPO的创新核心在于，用一个平滑、自适应的“软门控”机制，取代了传统强化学习方法中简单粗暴的“硬裁剪”。

简单来说，旧方法为了防止训练崩溃，会直接“一刀切”地将超出范围的梯度丢弃。但这带来了两个问题：一是有效学习信号被大量浪费；二是设置裁剪范围时难以平衡，太窄会没梯度，太宽又会引入噪音。

SAPO的“软门控”则像是一个智能调音器：

它不会因为少数异常的词元（token）而屏蔽整个句子（序列）的梯度。例如，当一个句子中只有几个词元不正常时，旧方法（GSPO）会丢弃整个句子的学习机会，而SAPO能选择性地降低异常词元的权重，保留其他正常词元的学习信号，大大提高了数据利用效率。
它形成了一个连续的信任区域，避免了旧方法因硬性截断带来的训练不连续性，让优化过程更平稳。

为了让你更清晰地理解SAPO的进步，下表将其与之前的两种主要方法进行了对比：

特性	GRPO (旧方法)	GSPO (旧方法)	SAPO (新方法)
优化层级	词元级 (Token-level)	序列级 (Sequence-level)	兼具序列一致性与词元自适应性
核心机制	对每个词元进行硬裁剪	对整个序列进行硬裁剪	平滑的温度控制软门控
信号处理	丢弃超出裁剪范围的单个词元梯度	若序列中有异常词元，则丢弃整个序列的梯度	选择性衰减异常词元权重，保留大部分有效信号
信任区域	不连续	不连续	连续

根据论文和报道，SAPO在多个基准测试中展现了优异效果：

提升训练稳定性与最终性能：在数学（AIME25）、编码（LiveCodeBench）、逻辑推理（ZebraLogic）等任务上，使用相同计算资源，SAPO相比前代方法获得了更高的通过率（Pass@1），并且训练过程更加稳定。
擅长处理复杂模型：该方法在结构复杂的专家混合模型（MoE）上表现尤其出色，能有效应对其内部的高方差问题。
已应用于实际模型：研究团队已使用SAPO来训练 Qwen3-VL系列模型，并观察到了跨任务和模型规模的一致性性能提升。

SAPO并非孤立出现，它是阿里通义团队在LLM强化学习优化路径上的最新成果。这条路径清晰反映了研究重心的演进：

总而言之，阿里通义推出的SAPO是一种更先进、更智能的强化学习优化器。它通过创新的“软门控”设计，巧妙地解决了训练稳定性和学习效率之间的矛盾，让大语言模型能够更稳健、更高效地从反馈中学习，从而变得“更稳更强”。