数智化转型网szhzxw.cn 人工智能资讯 每日人工智能资讯|美团 LongCat-AudioDiT 开源:首创波形潜空间建模,刷新音色克隆 SOTA

每日人工智能资讯|美团 LongCat-AudioDiT 开源:首创波形潜空间建模,刷新音色克隆 SOTA

 音频生成技术正迎来从级联架构向端到端生成的范式转移。针对传统 TTS 系统因“梅尔频谱”中间表征带来的信息损耗与误差累积,美团 LongCat 团队于今日正式发布并开源了 LongCat-AudioDiT(提供1B/3.5B 两个版本)。该模型通过在波形潜空间直接建模,成功刷新了零样本语音克隆的性能上限。

一、核心架构:彻底告别梅尔频谱

LongCat-AudioDiT 抛弃了传统的“预测声学特征+神经声码器”的多阶段流程,构建了由 Wav-VAE(波形变分自编码器) 与 DiT(扩散 Transformer) 组成的极简架构。

  • 高效 Wav-VAE: 采用全卷积设计,将24kHz 波形压缩2000倍至11.7Hz 帧率。通过非参数捷径分支与多目标对抗训练,确保了重建波形在保持精确时频结构的同时,拥有极佳的自然听感。
  • 语义增强 DiT: 模型创新性地将 UMT5文本编码器的原始词嵌入与顶层隐藏状态融合,补齐了高层语义中丢失的音素细节,大幅提升了生成语音的可懂度。

二、推理优化:精准解决音色漂移

为了进一步优化生成质量,团队引入了两项关键技术改进:

  1. 双重约束机制: 识别并纠正了流匹配 TTS 长期存在的“训练-推理不匹配”问题。通过在推理中强制重置提示区域(Prompt)隐变量,彻底解决了说话人音色漂移及稳定性不足的痛点。
  2. 自适应投影引导 (APG): 取代传统的无分类器引导 (CFG)。APG 能够精准筛选引导信号中的有益分量,抑制导致音质劣化的信号,在不产生频谱“过饱和”的前提下,显著提升了语音的自然度。

三、性能表现:SOTA 级的克隆精度

在 Seed 基准测试中,LongCat-AudioDiT 展现了统治级的性能:

  • 相似度(SIM):3.5B 模型在 Seed-ZH 测试集达到 0.818,在 Seed-Hard 难句测试集达到 0.797,均超越了 Seed-TTS、CosyVoice3.5及 MiniMax-Speech 等知名模型。
  • 准确率: 在英文 WER(1.50%)及中文难句 CER(6.04%)等指标上均处于行业第一梯队。

值得关注的是,LongCat-AudioDiT 仅通过 ASR 转写的预训练数据进行单阶段训练,便实现了优于多阶段训练模型的表现。目前,相关论文、代码及模型权重已在GitHub与HuggingFace全面开放。

地址:

GitHub: https://github.com/meituan-longcat/LongCat-AudioDiT

HuggingFace: https://huggingface.co/meituan-longcat/LongCat-AudioDiT

您对人工智能感兴趣,可添加数字化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商,可联系数字化转型网小助手思思(17757154048,微信同号)

此图片的alt属性为空;文件名为image-82.png

若您为人工智能服务商,可添加数字化转型网小助手Nora,加入人工智能行业交流群。

此图片的alt属性为空;文件名为image-83.png

若您为人工智能创业者,可添加数字化转型网社群主理人Carina,加入人工智能创业交流群。

此图片的alt属性为空;文件名为image-84.png

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。

此图片的alt属性为空;文件名为image-12.png

本文由数智化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数智化转型网(Professionalism Achieves Leadership 专业造就领导者)邵敏

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。http://www.szhzxw.cn/110717.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部