服务商资讯|影视、游戏音效革命：清华大学&生数科技ACM MM 2025最新研究让AI生成时间可控长时音频-数智化转型网

文生音频系统（Text-to-audio generation, T2A）在生成模型的持续发展下取得了显著的进展。然而，由于精确时间对齐的音频-文本数据对在质量和数量上的限制，现有T2A系统在面对包含精确时间控制的复杂文本提示时表现仍然不佳，例如”猫头鹰在2.4至5.2秒之间鸣叫”。近期的一些研究已尝试通过数据增强或引入时间条件作为模型输入，以实现10秒内的时间可控生成，但生成质量仍然有限。

为应对上述问题，清华大学和生数科技最新科研成果提出了一种基于免训练方法的精准时间可控长时文生音频系统 FreeAudio，可基于自然语言文本与时间提示实现精确的时间控制与长时音频生成，例如”猫头鹰在 2.4 至 5.2 秒之间鸣叫，在0至8秒间有溪流声，蟋蟀在0至24秒之间鸣叫”。目前，该工作已被ACM Multimedia 2025 录用，并被 AC 推荐为Oral录取。

ACM MM是计算机多媒体领域的国际顶级会议，也是中国计算机学会(CCF)推荐的多媒体领域唯一A类国际学术会议，今年将于10月27日至31日在爱尔兰都柏林举行。清华大学和生数科技科研成果的录用标志着国产文生音频在人工智能领域的研究成果得到国际同行认可，充分体现了生数科技在计算机和人工智能领域培养高水平人才、推进多模态技术研究的不懈努力。

一、任务动机

论文中提到，尽管现有的 T2A 生成模型取得了令人瞩目的进展，但在实现精确的时间控制和长时段连贯生成方面仍面临诸多挑战：

1. 大多数公开可用的音频数据集长度较短（通常约为 10 秒），且仅提供粗粒度的标签或字幕级注释。这限制了模型对细粒度时间控制和长时音频生成能力的学习与建模。同时，训练或微调用于时间控制和长时生成的大规模扩散模型，需要大量的计算资源与工程成本。

2. 现有方法通常通过引入事件及其时间戳作为条件，增强模型的时间控制能力。然而，这类方法普遍依赖于预定义的事件类别，难以适应开放式的自然语言描述，因而在实际应用中存在可扩展性差、泛化能力弱的问题。

为应对上述挑战，本文提出 FreeAudio，一种无需额外训练即可同时支持时间控制与长时生成的文本到音频框架。该方法利用 LLM 对时间结构进行规划，将文本与时间提示解析为一系列互不重叠的时间窗口，并为每个窗口生成适配的自然语言描述。随后，FreeAudio 依次生成各时间片段的音频内容，并通过上下文融合与参考引导机制实现最终的长时音频合成。

二、模型方法

FreeAudio 以预训练的 10 秒可变长 DiT-based T2A 扩散模型为基础，引入音频总时长作为独立条件输入。目标是在无需训练的前提下实现时间控制与长时音频生成。

在时间可控音频生成方面，FreeAudio 首先借助 LLM 的 Chain-of-Thought（CoT）思维链推理规划能力，将文本提示和时间提示解析为一系列不重叠的时间窗口，再将每个时间窗口对应的一组事件重述为适合 T2A 模型生成的文本提示。

Decoupling & Aggregating Attention Control 模块由两个子机制组成，分别针对局部对齐与全局融合问题进行建模：

• Decoupling Attention Control 将原始 Latent 查询按照时间窗口划分，并仅在 Cross-Attention 模块中激活与当前时间窗口对应的子提示。

• Aggregating Attention Control 则负责在 Self-Attention 与 Cross-Attention 模块中融合子提示生成的关键区域，按照时间顺序拼接为完整输出，并与全局 Latent 进行插值融合。

在长时音频生成方面，面对现有 T2A 模型推理长度有限（通常为 10 秒以内）的挑战，FreeAudio将任意时长的目标音频任务拆解为多个子片段，并采用两项关键技术协同保障整段音频的时序连贯与语义一致：

• Contextual Latent Composition：在每一步扩散采样中对相邻片段的潜变量进行上下文融合，尤其在片段重叠区域采用双向拼接策略，有效提升跨段过渡的平滑性；

• Reference Guidance：在自注意力模块中引入参考片段特征，作为全局参考，提升长音频在风格、音色与叙事连贯性方面的整体一致性；

最后，在波形重建阶段，对相邻片段的重叠区域进行去重裁剪，仅保留一次有效副本，保证生成音频在时域上的连续性与声学上的自然性。

三、实验结果

在时间可控音频生成实验中，FreeAudio 在 AudioCondition 测试集上显著优于现有主流方法，全面提升了时间对齐精度与音频质量。在客观指标方面，FreeAudio 在事件级对齐（Eb）、片段级准确率（At）、FAD、KL 以及 CLAP 相似度等多个关键维度均达到最优或次优表现，兼顾了时间控制能力与整体音频质量，并进一步展示了FreeAudio在十类声音事件上的Eb与At表现。在主观评估中，FreeAudio同样获得了最高的时间一致性与音频可听性评分。进一步的消融实验表明，Decoupling & Aggregating Attention Control 中的两个融合超参数在控制粒度与全局语义保持之间实现了良好平衡，有效提升了系统的可控性和听感稳定性。

在长时音频生成任务中，FreeAudio在AudioCaps和MusicCaps数据集上展现出优越的扩展性与稳定性。在10秒、26秒和90秒的生成长度，FreeAudio始终在多个指标上表现出色，充分验证了其对不同时长的生成能力。同时，主观评估结果显示，FreeAudio在音质、连贯性与风格一致性等维度均取得最好效果。

四、总结展望

本文提出了FreeAudio，一种新颖的免训练T2A生成框架，在时间条件控制的文本到音频生成任务中展现出优越的性能。在10秒时间控制的生成任务中，FreeAudio相较以往的免训练方法具有显著提升，且在无需任何时间对齐的音频-文本训练数据的情况下，取得了可与最先进基于训练方法媲美的效果。此外，FreeAudio首次在长时音频生成任务中实现了时间控制，在大幅降低计算开销的同时，仍表现出与训练式方法相当的性能。

此前生数科技联合清华大学推出的文生音效系统，在全球范围内首个实现了 10秒内的精准时间控制商业落地系统，支持独立时间窗音效生成。其标志性功能——多音轨时间窗精准可控（如独立设定动物鸣叫/环境声的时间区间），已通过生数科技Vidu平台落地商用，成为业内首个产业级解决方案。

此次推出的FreeAudio系统更是实现了关键技术突破——全球首个突破 10 秒时长限制，解锁了10秒以上场景的文生音效时间精准可控，凭借自主创新的技术方案，彻底解决行业痛点：

• 避免音效版权风险，解决音效匹配难题
• 大幅降低音效制作成本
• 支持多音轨秒级对齐（如环境声 + 动物鸣叫精准叠加）

FreeAudio系统为音效制作提供了灵活、精准的专业技术解决方案，为专业级影视音效制作打下了坚实技术基础。

未来，我们将进一步探索结合自然语言事件描述的训练式时间控制文本到音频生成系统，以提升时间对齐精度和音频生成质量。在长时音频生成方面，我们计划研究支持更长时长甚至无限长生成的机制，进一步拓展模型的生成范围与稳定性。此外，我们也希望将本方法拓展至空间音频生成等方向，以支持更多样的听觉场景。

FreeAudio系统未来将在Vidu产品端上线。

数智化转型网正在帮助企业寻找优质的数智化服务商，如果您想联系该厂商的人，请联系我们！思思：17757154048（微信同号）数智化转型网www.szhzxw.cn

如果贵司从事服务商行业，希望获得免费曝光权益或跟我们进行合作，请联系我们！Nora：N19221855776（微信同号）数智化转型网www.szhzxw.cn

数智化转型网数智化服务商库拥有来自数智化咨询、ERP、ERP实施、WMS、MES、CRM、SCRM、HR数智化、OA、协同办公数智化、电子签章、发票解决方案、税务解决方案、SRM供应商管理数智化、常见硬件等IT基础设施、低代码开发类、流程管理、预算管理、差旅管理、费控报销数智化、客服数智化、项目与任务管理、研发数智化PLM、财务共享数智化、TMS、电子招投标、B2B供应链管理、视频会议产品、企业直播、在线教育、在线文档、表格信息收集工具、智慧桌面运维、企业文档管理、云计算、云服务、营销数智化、MA、舆情监测分析、E-learning学习平台产品、电商数智化、电商ERP、国产操作系统、国产数据库、ESB、合同管理系统、资金管理、RPA、AI人工智能、信息安全、数据备份与恢复、网络安全态势感知、网管/ITIL/运维管理系统、虚拟云桌面、应用统一身份管理/身份认证/单点登录、上网行为管理、VPN、智慧园区、防火墙、主机文档加密与权限控制、邮件安全产品、运维审计/4A/堡垒机、桌面管理/主机审计、网闸、防病毒、虚拟化安全防护、SIEM/日志管理/日志审计/SOC/安管平台、网络准入控制、主机加固/服务器加固/EDR、打印安全、Web应用防火墙、加密机/密码机、基于云的安全服务等百余个品类的大小型服务商资料及用户实际使用情况及相应产品同行业实际口碑。数智化转型网szhzxw.cn

数智化转型网数智化服务商库同时拥有来自制造业、消费品行业、电力行业、文化出版行业、医疗行业、外贸行业、交通行业、零售连锁行业、电子商务行业、电商行业、建筑地产行业、汽车销售行业、汽车零部件行业、汽车整车行业、服装制造行业、服装销售行业、教育行业、金融行业、银行业、保险业、证券业、餐饮行业、酒店行业、物流行业、物业行业等具有不同行业特性的数智化服务商方案及用户实际使用情况及相关产品在行业内的具体口碑；也拥有来自外企、央国企、民企等不同类型企业的适用服务商方案及相关产品在同类型企业用户的实际使用情况及具体口碑情况。

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数智化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数智化转型网www.szhzxw.cn

本文由数智化转型网（www.szhzxw.cn）转载而成，版权归属于原作者；编辑/翻译：数智化转型网（Professionalism Achieves Leadership 专业造就领导者）白龙

服务商资讯|影视、游戏音效革命：清华大学&生数科技ACM MM 2025最新研究让AI生成时间可控长时音频

一、任务动机

二、模型方法

三、实验结果

四、总结展望

ARC集团布局国际资本市场，2025资本市场与并购论坛首落深圳

工信部等三部门联合印发《有色金属行业碳达峰实施方案》

人工智能资讯|微软大中华区董事长：未来每一家公司的每一个应用程序都将由人工智能来驱动

Stellantis将ChatGPT扩展到阿尔法·罗密欧和雪铁龙车型

人工智能专题|AAIG技术方向介绍——人工智能安全-人工智能安全性

联系我们

微信扫一扫关注我们

一、任务动机

二、模型方法

三、实验结果

四、总结展望

服务商资讯|先进数通×临商银行：”临小智”AI大模型服务平台上线、DeepSeekR1 70B蒸馏模型赋能、智能办公效率提升52%

服务商资讯|阅文漫剧联袂生数科技，以Vidu+海量IP构建AIGC内容新蓝图

相关推荐

联系我们

微信扫一扫关注我们