数智化转型网szhzxw.cn 人工智能资讯 人工智能资讯|清华大学与快手推出全新SVG扩散模型,训练效率提升6200%

人工智能资讯|清华大学与快手推出全新SVG扩散模型,训练效率提升6200%

最近,VAE(变分自动编码器)在科技界面临着逐渐被淘汰的尴尬局面。在清华大学和快手凌团队的合作下,引入了一种名为 SVG(无 VAE 潜在扩散模型)的新生成模型。这一创新不仅实现了6200%的训练效率提升,生成速度也实现了3500%的飞跃。

VAE在图像生成领域的衰落主要源于“语义纠缠”问题。换句话说,当我们尝试只改变图像的一个特征(例如猫的颜色)时,其他特征(例如体型或表情)通常会受到影响,从而导致生成的图像不准确。为了解决这个问题,清华大学和快手开发的SVG模型采取了不同的方法,积极构建了一个语义和细节相结合的特征空间。

在SVG模型的设计中,团队首先使用DINOv3预训练模型作为语义提取器。该模型通过大规模自监督学习进行训练,能够有效地识别和分离不同类别的特征,解决了传统VAE模型中的语义混乱。此外,为了补充细节,团队专门设计了轻量级残差编码器,以确保细节信息不会与语义特征冲突。按键分布对齐机制进一步增强了这两种特征的融合,保证了生成图像的高质量。

实验结果表明,SVG模型在生成质量和多任务泛化性方面全面超越了传统的VAE方法。在ImageNet数据集上,SVG模型仅经过80个训练周期,就实现了6.57的FID值(衡量生成图像与真实图像相似度的指标),远超类似规模的VAE模型;在推理效率方面,SVG模型也表现出了出色的性能,以更少的采样步骤生成清晰的图像。而且,SVG模型的特征空间可以直接用于图像分类、语义分割等各种视觉任务,无需额外的微调,大大提高了应用灵活性。

清华大学和快手共同研发的新技术不仅为图像生成领域带来了革命性的变革,也在多模态生成任务中展现出了巨大的潜力。

论文链接:https://arxiv.org/pdf/2510.15301

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/100372.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部