数智化转型网szhzxw.cn 人工智能资讯 Stability AI发布0.7秒单图像实时重建模型 SPAR3D,颠覆3D重建

Stability AI发布0.7秒单图像实时重建模型 SPAR3D,颠覆3D重建

在计算机视觉领域,单图像3D 重建技术以其从二维图像中恢复三维物体形状和结构的能力,成为了一个备受关注的研究方向。近日,著名开源大模型平台 Stability-AI 推出了一款名为 SPAR3D 的创新模型,使得这一技术的实现速度达到了前所未有的0.7秒,为行业带来了巨大的变革。

单图像3D 重建面临着众多挑战,主要技术路线分为基于回归的方法和生成式建模的方法。基于回归的方法在推断可见表面时效率较高,但在处理遮挡区域时常常出现表面和纹理估计不准确的问题。而生成式方法则能够更好地处理不确定性区域,但其计算成本高且生成结果与可见表面对齐较差。

SPAR3D 通过结合这两种技术的优点,有效规避了各自的局限性,显著提升了重建的速度和准确性。

SPAR3D 的架构:高效的点采样与网格化

SPAR3D 的架构由两个主要阶段组成:点采样阶段和网格化阶段。

  1. 点采样阶段 :该阶段的核心是点扩散模型,能够根据输入的二维图像生成稀疏的点云,包含 XYZ 坐标和 RGB 颜色信息。采用 DDPM(Denoising Diffusion Probabilistic Models)框架,该模型通过添加高斯噪声和去噪器的反向过程,学习如何从含噪点云中恢复出噪声。在推理过程中,使用 DDIM(Denoising Diffusion Implicit Models)采样器生成点云样本,并通过分类器自由引导(CFG)提升采样的保真度。
  2. 网格化阶段 :该阶段的目标是从输入的图像和点云中生成带有纹理的三维网格。SPAR3D 采用了大型三平面 Transformer,能够从图像和点云中预测出三平面特征,进而估计物体的几何形状、纹理和照明。训练过程中,通过可微渲染器使用渲染损失来监督模型,确保生成结果的真实感和质量。

显著性能:超越传统方法

在 GSO 和 OmniObject3D 数据集的测试中,SPAR3D 在多个评估指标上均显著优于传统的回归和生成式基线方法。例如,在 GSO 数据集中,SPAR3D 的 CD(Chamfer Distance)值为0.120,FS@0.1为0.584,PSNR(Peak Signal-to-Noise Ratio)为18.6,而其他方法的表现则相对较弱。在 OmniObject3D 数据集中,SPAR3D 同样展现出优异的性能,CD 值为0.122,FS@0.1为0.587,PSNR 为17.9。

这些结果充分证明了 SPAR3D 在几何形状和纹理质量方面的卓越表现,展现了其在实际应用中的潜力。

结语:开源技术的未来

随着技术的不断进步和应用场景的扩展,SPAR3D 无疑将在计算机视觉和3D 重建领域扮演重要角色。对于开发者和研究者而言,SPAR3D 的开源特性意味着更多的创新与应用机会。

开源地址:https://github.com/Stability-AI/stable-point-aware-3d

Huggingface:https://huggingface.co/stabilityai/stable-point-aware-3d

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)鲍勃

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/84921.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部