开源语音大模型"Step-Audio 2 mini"的特点和性能表现

1600 阅读 0 评论 0 点赞

Step-Audio 2 mini 是阶跃星辰在2025年9月1日发布的一款开源端到端语音大模型。它在多项国际基准测试中取得了SOTA（当前最佳）成绩，综合性能表现优异。

下面是一个表格，帮你快速了解它的核心特点和性能表现：

方面	核心特点与性能表现
发布信息	由阶跃星辰于2025年9月1日发布，并开源
核心架构	采用真正的端到端多模态架构，将语音理解、音频推理与生成统一建模，摒弃了传统的ASR+LLM+TTS三级结构，使得架构更简洁、时延更低
关键性能表现	音频理解：在通用多模态音频理解测试集MMAU上以73.2分位列开源模型榜首语音识别：在开源中文测试集上字错误率（CER）仅3.19%，英文测试集词错误率（WER）3.50%，领先其他开源模型15%以上跨语种翻译：在中英互译任务（CoVoST2和CVSS评测集）上表现出色，成绩大幅领先口语对话：在衡量口语对话能力的URO Bench基础与专业赛道上，获得开源端到端语音模型最高分
创新技术	首创音频推理能力：能精细理解、推理情绪、语调、音乐等副语言和非语音信号并自然回应支持语音原生Tool Calling：可实现联网搜索等操作，帮助解决模型“幻觉”问题引入链式思维推理（CoT）与强化学习联合优化
实际应用体验	能精准识别大自然声音和配音，实时搜索最新资讯，控制语速适应不同场景对话需求，应对复杂哲学问题时能展现强大逻辑推理能力
模型获取	已在 GitHub、Hugging Face、ModelScope 等平台上线，可供下载、试用和反馈

广泛应用与落地

Step-Audio 2 mini 的技术也已在实际场景中落地：

阶跃星辰的开源贡献

阶跃星辰在推进多模态技术发展方面颇为积极。2025年以来，它已经开源了包括Step-Audio 2 mini在内的8款性能领先的多模态模型，覆盖了语音、视频生成、图像编辑、3D、多模态推理等多个类别，为全球开源社区贡献了重要力量。

小结一下

Step-Audio 2 mini 的发布，意味着开源语音大模型在性能、效率和智能化水平上都有了显著提升。它的端到端架构、强大的音频推理能力以及对语音原生工具调用的支持，都非常值得关注。