数智化转型网szhzxw.cn 人工智能资讯 人工智能资讯|通义千问推出全新语音识别模型 Qwen3-ASR-Flash,革新语音转文字技术

人工智能资讯|通义千问推出全新语音识别模型 Qwen3-ASR-Flash,革新语音转文字技术

近日, 在全球语音识别技术日益发展的背景下,通义千问今日正式推出其最新语音识别模型 ——Qwen3-ASR-Flash。该模型基于 Qwen3基座模型,经过海量多模态数据及数千万小时的自动语音识别(ASR)数据训练而成,旨在为用户提供高精度、高鲁棒性的语音识别解决方案。

Qwen3-ASR-Flash 的核心特性包括领先的识别准确率和惊艳的歌声识别能力。模型在多个中英文及多语种的基准测试中表现出色,尤其是在支持歌唱识别方面,实测错误率低于8%。这意味着无论是清唱还是伴随背景音乐的整歌,Qwen3-ASR-Flash 都能够有效地识别并转录。

另一个显著特点是其定制化识别能力。用户可以以任意格式提供文本上下文,模型能够智能识别并匹配命名实体和关键术语,从而输出个性化的识别结果。这一功能的实现使得 Qwen3-ASR-Flash 在处理复杂语境时更具灵活性和适应性。

此外,Qwen3-ASR-Flash 支持多达11种语言及多种方言和口音,能够实现精准转录。其语种支持包括普通话及主要方言(如四川话、粤语等)、英式和美式英语,甚至包括法语、德语、俄语、意大利语、西班牙语、日语、韩语和阿拉伯语等多种语言。这为用户提供了更为广泛的选择,满足了不同地域和语言使用者的需求。

Qwen3-ASR-Flash 还具备强大的鲁棒性,能够在长难句、句中语言切换和复杂声学环境中保持高准确率,有效过滤非语音片段,如静音和背景噪声,确保用户获得最佳的语音识别体验。

为了让用户能够体验到 Qwen3-ASR-Flash 的强大功能,通义千问在多个平台上提供了体验方式,包括 ModelScope、HuggingFace 和阿里云百炼 API 等,用户可以便捷地试用该模型。

未来,通义千问表示,Qwen3-ASR-Flash 将持续迭代升级,不断提高识别准确率,并开发更多功能,致力于为用户提供更智能、更高效的语音转文字服务。通过这项技术创新,通义千问希望在语音识别领域开创更广阔的未来。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)萍水

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。http://www.szhzxw.cn/92674.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部