Step-Audio 2 mini 是阶跃星辰在2025年9月1日发布的一款开源端到端语音大模型。它在多项国际基准测试中取得了SOTA(当前最佳)成绩,综合性能表现优异。

下面是一个表格,帮你快速了解它的核心特点和性能表现:

方面核心特点与性能表现
发布信息由阶跃星辰于2025年9月1日发布,并开源
核心架构采用真正的端到端多模态架构,将语音理解、音频推理与生成统一建模,摒弃了传统的ASR+LLM+TTS三级结构,使得架构更简洁、时延更低
关键性能表现音频理解:在通用多模态音频理解测试集MMAU上以73.2分位列开源模型榜首
语音识别:在开源中文测试集上字错误率(CER)仅3.19%,英文测试集词错误率(WER)3.50%,领先其他开源模型15%以上
跨语种翻译:在中英互译任务(CoVoST2和CVSS评测集)上表现出色,成绩大幅领先
口语对话:在衡量口语对话能力的URO Bench基础与专业赛道上,获得开源端到端语音模型最高分
创新技术首创音频推理能力:能精细理解、推理情绪、语调、音乐等副语言和非语音信号并自然回应
支持语音原生Tool Calling:可实现联网搜索等操作,帮助解决模型“幻觉”问题
引入链式思维推理(CoT)与强化学习联合优化
实际应用体验能精准识别大自然声音和配音,实时搜索最新资讯,控制语速适应不同场景对话需求,应对复杂哲学问题时能展现强大逻辑推理能力
模型获取已在 GitHub、Hugging Face、ModelScope 等平台上线,可供下载、试用和反馈

广泛应用与落地

Step-Audio 2 mini 的技术也已在实际场景中落地:

  • 此前吉利发布的银河M9车型就搭载了阶跃星辰的端到端语音大模型,是行业内该技术首次实现量产上车

  • 阶跃星辰还正与鲸鱼机器人、TCL、Cyan青心意创等头部终端厂商合作,推动语音大模型在更多生活场景中为消费者提供智能、便捷的互动体验。

阶跃星辰的开源贡献

阶跃星辰在推进多模态技术发展方面颇为积极。2025年以来,它已经开源了包括Step-Audio 2 mini在内的8款性能领先的多模态模型,覆盖了语音、视频生成、图像编辑、3D、多模态推理等多个类别,为全球开源社区贡献了重要力量。

小结一下

Step-Audio 2 mini 的发布,意味着开源语音大模型在性能、效率和智能化水平上都有了显著提升。它的端到端架构强大的音频推理能力以及对语音原生工具调用的支持,都非常值得关注。

点赞(0)

评论列表 共有 0 条评论

暂无评论
立即
投稿
发表
评论
返回
顶部