开源语音大模型 “Step-Audio 2 mini” 发布！听得清楚、说得自然-数智化转型网szhzxw.cn

近日，阶跃星辰正式推出了最新的开源端到端语音大模型 ——Step-Audio2mini。这款模型在多个国际基准测试中表现优异，获得了 SOTA（最先进技术）成绩，令人瞩目。Step-Audio2mini 不仅在语音理解和音频生成方面能力强大，还首次将音频推理和生成统一建模，为语音识别、跨语言翻译和情感解析等多种应用场景提供了出色的解决方案。

Step-Audio2mini 的特点之一是其卓越的多模态音频理解能力。在 MMAU（多模态音频理解测试集）上，该模型以73.2的得分稳居开源语音模型的榜首。在口语对话能力的 URO Bench 测试中，无论基础赛道还是专业赛道，Step-Audio2mini 都取得了开源模型中的最高分，展现出其出色的对话理解与表达能力。

在中英互译任务中，Step-Audio2mini 也表现不俗。在 CoVoST2和 CVSS 评测集上，分别获得了39.3和29.1的高分，明显超越了 GPT-4o Audio 和其他开源语音模型。此外，该模型在语音识别方面同样出类拔萃，在开源中文测试集上的字错误率（CER）为3.19，在开源英语测试集上的词错误率(WER)为3.50，领先其他开源模型超过15%。

Step-Audio2mini 的成功离不开其创新的架构设计。该模型打破了传统的 ASR（自动语音识别）、LLM(大语言模型)和 TTS(文本转语音)的三级结构，实现了从原始音频输入到语音响应输出的直接转换，简化了架构，降低了延迟。此外，模型还引入了链式思维推理(CoT)与强化学习的联合优化技术，使其能够更好地理解情绪、语调等副语言信息，并自然地作出反应。

值得一提的是，Step-Audio2mini 还支持音频知识增强功能，能够利用外部工具进行联网搜索，解决了传统模型中的幻觉问题。这一创新不仅提升了模型的实用性，还扩展了其在多种场景中的应用潜力。

声明：本文来自AI新闻资讯，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于AI新闻资讯；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导者）萍水

开源语音大模型 “Step-Audio 2 mini” 发布！听得清楚、说得自然

张鹏：数字化运营场景下，房地产全价值链应用实践

典型数据安全场景数据安全风险八：开发环境静态脱敏手段缺失，数据使用线上业务数据测试

人工智能资讯|马斯克 xAI 在孟菲斯开建全球最大污水处理厂，年节约饮用水达 190 亿升

构建基于流程管理的企业风险管理模式的内涵是什么？

企业出海案例|企业全球出海目的地选择分析——化工原料行业

联系我们

微信扫一扫关注我们

Anthropic证实：Claude Opus 4.1和Opus 4模型出现 “降智” 现象，已紧急修复！

BBC调查：网络诈骗团伙利用 AI 制造虚假大屠杀图像，扰乱历史记忆

相关推荐

联系我们

微信扫一扫关注我们