阿里通义Qwen团队推出的SAPO新型强化学习方法 阿里通义推出SAPO这项全称为 Soft Adaptive Policy Optimization(软自适应策略优化) 的新方法,旨在解决大语言模型(LLM)在强化学习训练中的稳定性难题。 AI操作篇 2025年12月10日 0 点赞 0 评论 17 浏览