李沐团队发布 Higgs Audio v2，开创语音合成新纪元-数智化转型网szhzxw.cn

知名 AI 创业者李沐与他的团队 Boson.ai 最近推出了全新的开源文本转语音（TTS）大模型 ——Higgs Audio v2。这款模型不仅可以将文本转换为语音，还具备多语言对话生成、韵律自动调整和声音克隆等多种功能，堪称语音合成领域的一次重大突破。

Higgs Audio v2的强大之处在于其多模态能力，它不仅能够处理文本信息，还能理解和生成语音，完成复杂任务。例如，它可以写一首歌并用特定的声音演唱，同时还可以配上背景音乐，这在以前的 TTS 技术中是不可想象的。数字化转型网www.szhzxw.cn

该模型融合了多达1000万小时的语音数据进行训练，确保其在各种基准测试中的优异表现。根据 EmergentTTS-Eval 测试，Higgs Audio v2在 “情绪” 和 “问题” 两个类别中，胜率分别超过了 GPT-4o-mini-tts 高达75.7% 和55.7%。在传统的 TTS 测试中，该模型同样展现了超凡的性能，成为行业标杆。

技术上，Higgs Audio v2采用先进的数据处理方式，每秒25帧的语音信号通过离散化音频分词器转化为编号序列，从而精准捕捉语义与声学特征。同时，模型架构利用了预训练的大型语言模型，使其在理解语言和上下文方面具备了强大的能力。此外，该模型还具备上下文学习能力，能通过简单提示快速适应新的任务，实现零样本的语音克隆。数字化转型网www.szhzxw.cn

在应用场景上，Higgs Audio v2能够实现实时语音聊天，提供低延迟和情感表达的自然互动，非常适合用在虚拟主播和实时语音助手中。同时，音频内容创作方面，它能够生成自然对话和旁白，为有声读物、互动培训及动态故事讲述等提供强大支持。最后，语音克隆功能让它能够复制特定人物的声音，开启娱乐和创意领域的新可能性。

这款模型的代码已经全部开源，用户可以在 GitHub 和 Hugging Face 平台上找到，支持在本地安装，用户需准备 GPU 版的 PyTorch 或使用 Docker 进行简化安装。数字化转型网www.szhzxw.cn

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导者）鲍勃

李沐团队发布 Higgs Audio v2，开创语音合成新纪元

什么是主数据

关于印发广东省经贸系统关于开展法制宣传教育的第五个五年规划(2006-2010)的通知

服务商咨资讯|BOE（京东方）联合英特尔推出首款AI驱动多频显示解决方案全新显示技术赋能更优体验

人工智能资讯|三星Galaxy S26系列强势亮相！十几项AI功能升级

中国新能源汽车出海数据合规风险与应对

联系我们

微信扫一扫关注我们

谷歌Gemini重磅更新：直接选用Imagen生成图像

皮尤研究中心重磅发布:谷歌AI概览重塑搜索行为，外部网站流量锐减

相关推荐

联系我们

微信扫一扫关注我们