人工智能资讯|Stability AI与Arm推出手机级音频生成AI:7秒内创建11秒立体声-数智化转型网szhzxw.cn

Stability AI和Arm联合发布了一款名为”稳定音频开放小型”（Stable Audio Open Small）的紧凑型文本转音频模型，该模型能够在约7秒内生成长达11秒的高质量立体声音频片段，且经过优化可在智能手机等移动设备上运行。

这一突破基于加州大学伯克利分校研究人员开发的”对抗相对对比”（Adversarial Relativistic-Contrastive，ARC）技术。该模型在高端硬件如Nvidia H100GPU上的表现更为惊人，能够在仅75毫秒内完成44kHz立体声音频的生成，实现了近乎实时的音频合成能力。

与去年发布的包含11亿参数的原始Stable Audio Open相比，这一精简版本仅使用3.41亿个参数，大幅减少了计算资源需求，使其能够在消费级硬件上流畅运行。这是Stability AI和Arm于今年3月宣布合作后的首个重要成果。

为实现智能手机端运行，开发团队对模型架构进行了彻底改进，将系统重构为三个核心组件:压缩音频数据的自动编码器，解释文本提示的嵌入模块，生成最终音频的扩散模型。

Stability AI表示，该模型在生成音效和现场录音方面表现尤为出色，但在音乐生成方面仍有限制，特别是在处理歌声时，且目前主要适用于英语提示输入。

模型训练使用了Freesound数据库中约472，000个符合CC0、CC-BY或CC-Sampling+许可条款的音频片段，开发团队通过一系列自动化检查对训练数据进行了筛选，以避免潜在的版权问题。

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导者）默然

人工智能资讯|Stability AI与Arm推出手机级音频生成AI:7秒内创建11秒立体声