数智化转型网szhzxw.cn 人工智能资讯 微软开源 VibeVoice-1.5B 模型:90 分钟超长语音合成新突破

微软开源 VibeVoice-1.5B 模型:90 分钟超长语音合成新突破

近日,微软研究院正式开源了其最新音频模型 ——VibeVoice-1.5B。该模型在语音合成技术上实现了多项重大突破,使得合成的语音更自然、时长更长、效果更优。数字化转型网www.szhzxw.cn

VibeVoice-1.5B 具备一次性合成90分钟超长语音的能力,这在以往的语音合成模型中是罕见的。之前,多数模型只能合成60分钟以内的语音,且在超过30分钟时容易出现音色漂移和语义断裂的问题。此模型还支持最多四位发言人发言,显著提高了多说话人的合成效果,而以往的开源模型最多只能支持两位发言者。此外,VibeVoice 还实现了对24kHz 原始音频的3200倍压缩,大大提高了压缩效率,且保留了高保真的语音效果。

VibeVoice 模型的核心在于其独特的双 tokenizer 架构。与传统 TTS 模型多依赖单一 tokenizer 提取特征不同,VibeVoice 创新性地引入了声学 tokenizer 与语义 tokenizer 的协同工作机制,解决了音色与语义不匹配的问题。声学 tokenizer 专注于保留声音特征并实现极致压缩,而语义 tokenizer 则负责提取与文本语义相一致的特征,确保合成语音的情感与文本内容一致。数字化转型网www.szhzxw.cn

在训练方面,VibeVoice 采用了课程学习策略,将输入序列长度逐步增加,从而避免了因处理超长序列而导致的训练失败。其训练过程中的声学 tokenizer 与语义 tokenizer 参数保持不变,确保了特征提取模块的稳定性,进而缩短了训练周期。

VibeVoice-1.5B 的开源不仅为语音合成领域带来了新的技术突破,也为未来更大参数模型的发布奠定了基础。对于音频处理和语音合成的研究人员和开发者来说,这是一个值得关注的创新进展。数字化转型网www.szhzxw.cn

开源地址:https://huggingface.co/microsoft/VibeVoice-1.5B

在线demo:https://aka.ms/VibeVoice-Demo

划重点:  数字化转型网www.szhzxw.cn

🔊 VibeVoice-1.5B 模型可一次性合成90分钟的超长语音,支持最多四位发言人。  

💾 该模型实现3200倍的音频压缩率,保持高保真语音效果。  

🤖 采用双 tokenizer 架构,解决音色与语义不匹配的问题。

声名:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)鲍勃

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。http://www.szhzxw.cn/90555.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部