每日人工智能资讯|Hume AI 开源 TADA：5倍速，零幻觉TTS，可在移动设备上运行700秒音频-数智化转型网szhzxw.cn

Hume AI最近开源了其最新的语音生成模型TADA（文本-声学双重对齐），这是一种基于大型语言模型的文本转语音（TTS）系统。它采用创新的文本-声学双对准架构，显著提升了发电效率、可靠性和应用场景。

根据官方介绍，TADA实现了文本标记与声学表示之间的1：1严格同步，完全解决了传统基于LLM的TTS系统中常见的标记级内容幻觉问题。在对1000多个测试样本的评估中，该模型实现了零内容幻觉表现。

在性能方面，TADA生成音频的速度是同类LLM TTS系统的五倍多，同时消耗极低的资源：每秒音频仅需2-3帧的计算资源，而传统解决方案通常需要12.5到75帧。这使得模型能够在手机和边缘设备等低功耗硬件上进行本地推断，而无需依赖云服务器。

TADA支持多种语言，包括中文（多语言版本基于Llama3.23B参数尺度），并提供1B（主要用于英语）和3B多语言预训练模型。该模型使用2048个令牌的上下文窗口，能够一次性生成约700秒的连续音频，远远超过传统解决方案，传统方案在相同令牌限制下只能支持约70秒。

另一个重要创新是同步转录功能：模型在生成语音时直接输出相应的文本转录，无需额外的单独语音识别（ASR）过程，从而实现文本输出的零额外延迟。该功能对实时字幕、语音交互和内容创作应用具有重要价值。

在人类主观评估中，TADA在自然性和语音相似度方面排名第二，超过了参数尺度更大、训练数据更多的系统，展现出高度竞争力的语音质量。

若您对人工智能感兴趣，可添加数字化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商，可联系数字化转型网小助手思思（17757154048，微信同号）

若您为人工智能服务商，可添加数字化转型网小助手Nora，加入人工智能行业交流群。

若您为人工智能创业者，可添加数字化转型网社群主理人Carina，加入人工智能创业交流群。

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。

本文由数智化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数智化转型网（Professionalism Achieves Leadership 专业造就领导者）默然

每日人工智能资讯|Hume AI 开源 TADA：5倍速，零幻觉TTS，可在移动设备上运行700秒音频