数智化转型网szhzxw.cn 人工智能资讯 开源语音大模型 “Step-Audio 2 mini” 发布!听得清楚、说得自然

开源语音大模型 “Step-Audio 2 mini” 发布!听得清楚、说得自然

近日,阶跃星辰正式推出了最新的开源端到端语音大模型 ——Step-Audio2mini。这款模型在多个国际基准测试中表现优异,获得了 SOTA(最先进技术)成绩,令人瞩目。Step-Audio2mini 不仅在语音理解和音频生成方面能力强大,还首次将音频推理和生成统一建模,为语音识别、跨语言翻译和情感解析等多种应用场景提供了出色的解决方案。

Step-Audio2mini 的特点之一是其卓越的多模态音频理解能力。在 MMAU(多模态音频理解测试集)上,该模型以73.2的得分稳居开源语音模型的榜首。在口语对话能力的 URO Bench 测试中,无论基础赛道还是专业赛道,Step-Audio2mini 都取得了开源模型中的最高分,展现出其出色的对话理解与表达能力。

在中英互译任务中,Step-Audio2mini 也表现不俗。在 CoVoST2和 CVSS 评测集上,分别获得了39.3和29.1的高分,明显超越了 GPT-4o Audio 和其他开源语音模型。此外,该模型在语音识别方面同样出类拔萃,在开源中文测试集上的字错误率(CER)为3.19,在开源英语测试集上的词错误率(WER)为3.50,领先其他开源模型超过15%。

Step-Audio2mini 的成功离不开其创新的架构设计。该模型打破了传统的 ASR(自动语音识别)、LLM(大语言模型)和 TTS(文本转语音)的三级结构,实现了从原始音频输入到语音响应输出的直接转换,简化了架构,降低了延迟。此外,模型还引入了链式思维推理(CoT)与强化学习的联合优化技术,使其能够更好地理解情绪、语调等副语言信息,并自然地作出反应。

值得一提的是,Step-Audio2mini 还支持音频知识增强功能,能够利用外部工具进行联网搜索,解决了传统模型中的幻觉问题。这一创新不仅提升了模型的实用性,还扩展了其在多种场景中的应用潜力。

声明:本文来自AI新闻资讯,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于AI新闻资讯;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)萍水

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/91638.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部