MOSS-TTSD震撼开源:百万小时训练打造AI播客新王者-数智化转型网szhzxw.cn

由清华大学语音与语言实验室（Tencent AI Lab）联合上海创智学院、复旦大学和模思智能打造的MOSS-TTSD(Text to Spoken Dialogue)近日正式开源，标志着AI语音合成技术在对话场景中的重大突破。数字化转型网www.szhzxw.cn

这款基于Qwen3-1.7B-base模型续训练的语音对话生成模型，以约100万小时单说话人语音数据和40万小时对话语音数据为基础，采用离散化语音序列建模方法，实现了中英双语的高表现力对话语音生成，特别适合AI播客、有声小说和影视配音等长篇内容创作。

MOSS-TTSD的核心创新在于其XY-Tokenizer，采用双阶段多任务学习方式，通过八层RVQ码本将语音信号压缩至1kbps比特率，同时保留语义与声学信息，确保生成语音的自然度和流畅性。模型支持最长960秒的超长语音生成，避免了传统TTS模型拼接片段导致的不自然过渡。此外，MOSS-TTSD具备零样本音色克隆能力，可通过上传完整对话片段或单人音频实现双人语音克隆，并支持声音事件控制，如笑声等非语言声音，赋予语音更丰富的表现力。数字化转型网www.szhzxw.cn

与市场上其他语音模型相比，MOSS-TTSD在中文客观指标上大幅领先开源模型MoonCast，韵律和自然度表现优异。然而，相较于字节跳动的豆包语音模型，其语气和节奏感略逊一筹，但在开源和免费商业使用的优势下，MOSS-TTSD仍展现出强大的应用潜力。模型权重、推理代码和API接口已通过GitHub（https://github.com/OpenMOSS/MOSS-TTSD）和HuggingFace(https://huggingface.co/fnlp/MOSS-TTSD-v0.5)全面开源，官方文档和在线体验Demo也已上线，为开发者提供便捷接入。

MOSS-TTSD的发布为AI语音交互领域注入新活力，尤其在长篇访谈、播客制作和影视配音等场景中，其稳定性和表现力将推动内容创作的智能化进程。未来，团队计划进一步优化模型，增强多说话人场景下的语音切换准确性和情感表达。

地址：https://github.com/OpenMOSS/MOSS-TTSD数字化转型网www.szhzxw.cn

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导者）鲍勃

MOSS-TTSD震撼开源:百万小时训练打造AI播客新王者

人工智能热潮：莫跟风防虚火

工业和信息化部关于促进制造业产品和服务质量提升的实施意见——总体要求

叮咚买菜出海为什么选择沙特做为出海首站？

国自助力海辰储能北美储能系统工厂开业

中国人工智能发展存在哪些短板？

联系我们

微信扫一扫关注我们

Creao AI完成千万美元融资，打造未来“Agent协同操作系统”

字节跳动 Seed 助力清华大学夺得机器人足球世界杯冠军

相关推荐

联系我们

微信扫一扫关注我们