数智化转型网szhzxw.cn 人工智能资讯 李沐团队发布 Higgs Audio v2,开创语音合成新纪元

李沐团队发布 Higgs Audio v2,开创语音合成新纪元

知名 AI 创业者李沐与他的团队 Boson.ai 最近推出了全新的开源文本转语音(TTS)大模型 ——Higgs Audio v2。这款模型不仅可以将文本转换为语音,还具备多语言对话生成、韵律自动调整和声音克隆等多种功能,堪称语音合成领域的一次重大突破。

Higgs Audio v2的强大之处在于其多模态能力,它不仅能够处理文本信息,还能理解和生成语音,完成复杂任务。例如,它可以写一首歌并用特定的声音演唱,同时还可以配上背景音乐,这在以前的 TTS 技术中是不可想象的。数字化转型网www.szhzxw.cn

该模型融合了多达1000万小时的语音数据进行训练,确保其在各种基准测试中的优异表现。根据 EmergentTTS-Eval 测试,Higgs Audio v2在 “情绪” 和 “问题” 两个类别中,胜率分别超过了 GPT-4o-mini-tts 高达75.7% 和55.7%。在传统的 TTS 测试中,该模型同样展现了超凡的性能,成为行业标杆。

技术上,Higgs Audio v2采用先进的数据处理方式,每秒25帧的语音信号通过离散化音频分词器转化为编号序列,从而精准捕捉语义与声学特征。同时,模型架构利用了预训练的大型语言模型,使其在理解语言和上下文方面具备了强大的能力。此外,该模型还具备上下文学习能力,能通过简单提示快速适应新的任务,实现零样本的语音克隆。数字化转型网www.szhzxw.cn

在应用场景上,Higgs Audio v2能够实现实时语音聊天,提供低延迟和情感表达的自然互动,非常适合用在虚拟主播和实时语音助手中。同时,音频内容创作方面,它能够生成自然对话和旁白,为有声读物、互动培训及动态故事讲述等提供强大支持。最后,语音克隆功能让它能够复制特定人物的声音,开启娱乐和创意领域的新可能性。

这款模型的代码已经全部开源,用户可以在 GitHub 和 Hugging Face 平台上找到,支持在本地安装,用户需准备 GPU 版的 PyTorch 或使用 Docker 进行简化安装。数字化转型网www.szhzxw.cn

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)鲍勃

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/86349.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部