中国数智化转型网 人工智能资讯 每日人工智能资讯|音频创作迎来新突破!Stability AI 发布 Stable Audio 3:长音频秒级生成

每日人工智能资讯|音频创作迎来新突破!Stability AI 发布 Stable Audio 3:长音频秒级生成

知名人工智能公司 Stability AI 近日正式发布了其最新一代音频大模型Stable Audio3,并同步开源了部分模型权重。作为一款专为音频生成与编辑设计的潜扩散模型,该系统不仅支持高品质的双声道立体声输出,更在生成速度上实现了质的飞跃。数智化转型网www.szhzxw.cn

本次发布的模型家族涵盖了从小到大多种规格,能够满足音乐创作和音效制作等多元化需求。值得一提的是,该模型支持可变长度的音频生成,并引入了基于内补成像技术的音频编辑功能,为创作者提供了前所未有的灵活性。数智化转型网www.szhzxw.cn

一、创新架构打破硬件限制

Stable Audio3在架构上由两大核心组件构成:一个被称为 SAME 的语义声学自编码器,以及一个高效的扩散变换器。其中,SAME 自编码器实现了高达4096倍的音频压缩率,这一突破性设计大幅缩短了潜在序列的长度。数智化转型网www.szhzxw.cn

得益于这一高效的压缩机制,即使是在普通的消费级硬件上,该模型也能够流畅地运行长周期、大篇幅的音频生成任务。这不仅显著降低了高品质音频创作的技术门槛,也让个人创作者在家中开展专业级音视频制作成为可能。数智化转型网www.szhzxw.cn

二、超高效率实现即时渲染

在 variable-length 技术的加持下,新模型的计算成本能够随着用户要求的音频时长动态缩放,彻底告别了以往固定长度带来的算力浪费。在高性能硬件的测试中,该模型仅需约0.62秒便可渲染出一段20秒的音频,而生成长达380秒的音乐也仅需1.31秒。数智化转型网www.szhzxw.cn

此外,通过创新的三阶段训练流程,Stable Audio3在推理阶段不再依赖传统的无分类器指导技术,从而实现了单步前向传播的极速体验。目前,面向大众开放的小型和中型模型权重已在 Hugging Face 平台上线,而性能更强悍的大型版本则将通过商业授权形式提供。数智化转型网www.szhzxw.cn

若您对人工智能感兴趣,可添加数智化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商,可联系数智化转型网小助手思思(17757154048,微信同号)

思思微信二维码

若您为人工智能服务商,可添加数智化转型网小助手Nora,加入人工智能行业交流群。

Nora微信二维码

若您为人工智能创业者,可添加数智化转型网社群主理人Carina,加入人工智能创业交流群。

Carina微信二维码

声明:本文来自数智化转型网,版权归作者所有。文章内容仅代表作者独立观点,不代表数智化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。

底部图片
免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/121093.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部