数智化转型网szhzxw.cn 人工智能资讯 人工智能资讯|Stability AI与Arm推出手机级音频生成AI:7秒内创建11秒立体声

人工智能资讯|Stability AI与Arm推出手机级音频生成AI:7秒内创建11秒立体声

Stability AI和Arm联合发布了一款名为”稳定音频开放小型”(Stable Audio Open Small)的紧凑型文本转音频模型,该模型能够在约7秒内生成长达11秒的高质量立体声音频片段,且经过优化可在智能手机等移动设备上运行。

这一突破基于加州大学伯克利分校研究人员开发的”对抗相对对比”(Adversarial Relativistic-Contrastive,ARC)技术。该模型在高端硬件如Nvidia H100GPU上的表现更为惊人,能够在仅75毫秒内完成44kHz立体声音频的生成,实现了近乎实时的音频合成能力。

与去年发布的包含11亿参数的原始Stable Audio Open相比,这一精简版本仅使用3.41亿个参数,大幅减少了计算资源需求,使其能够在消费级硬件上流畅运行。这是Stability AI和Arm于今年3月宣布合作后的首个重要成果。

为实现智能手机端运行,开发团队对模型架构进行了彻底改进,将系统重构为三个核心组件:压缩音频数据的自动编码器,解释文本提示的嵌入模块,生成最终音频的扩散模型。

Stability AI表示,该模型在生成音效和现场录音方面表现尤为出色,但在音乐生成方面仍有限制,特别是在处理歌声时,且目前主要适用于英语提示输入。

模型训练使用了Freesound数据库中约472,000个符合CC0、CC-BY或CC-Sampling+许可条款的音频片段,开发团队通过一系列自动化检查对训练数据进行了筛选,以避免潜在的版权问题。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/81923.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部