SAPO

首页

SAPO

阿里通义推出SAPO这项全称为 Soft Adaptive Policy Optimization（软自适应策略优化）的新方法，旨在解决大语言模型（LLM）在强化学习训练中的稳定性难题。

AI操作篇 2025年12月10日 0 点赞 0 评论 17 浏览