数智化转型网szhzxw.cn 人工智能资讯 ​人工智能资讯|以简胜繁:Meta AI 推出 Pixio 图像模型,凭借像素重建刷新3D 重建纪录

​人工智能资讯|以简胜繁:Meta AI 推出 Pixio 图像模型,凭借像素重建刷新3D 重建纪录

Meta AI 的研究团队近日发布了一项名为 Pixio 的图像模型研究,证明了即使采用更简单的训练路径,也能在深度估计和3D 重建等复杂视觉任务中展现出卓越的性能。长期以来,学术界普遍认为掩码自编码器(MAE)技术在场景理解上逊色于 DINOv2或 DINOv3等复杂算法,但 Pixio 的出现打破了这一固有认知。

Pixio 的核心逻辑源于对2021年 MAE 框架的深度改良。研究人员发现,原始设计中较弱的解码器限制了编码器的表现,因此他们显著增强了解码器的功能,并扩大了图像遮罩区域。通过将细小的遮罩方块改为大面积连续区域,Pixio 被迫放弃简单的像素复制,转而必须真正“理解”图像中的物体共现、3D 透视以及反射等空间关系。此外,通过引入多个用于聚合全局属性的类别标记,该模型能更精准地捕捉场景类型、相机角度及光照信息。

在训练策略上,Pixio 展现出极高的纯粹性。不同于 DINOv3针对特定基准测试(如 ImageNet)进行重复优化,Pixio 从网络收集了20亿张图像,并采用动态频率调整:减少简单产品照的权重,增加复杂场景的训练频次。这种不针对测试集“刷分”的做法,反而赋予了模型更强的迁移能力。

数据对比显示,仅拥有6.31亿参数的 Pixio 在多项指标上超越了8.41亿参数的 DINOv3。在单目深度估计中,其准确率提升了16%;在3D 重建任务中,仅凭单张图像训练的 Pixio 甚至优于使用八视角训练的 DINOv3。同时,在机器人学习领域,Pixio 也以78.4% 的成功率领先于 DINOv2。尽管研究团队承认人工掩蔽存在局限性,并计划向视频预测方向探索,但 Pixio 目前取得的突破已足以证明:回归像素重建的本质,往往能通向更深层的视觉理解。

若您对人工智能感兴趣,可添加数字化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商,可联系数字化转型网小助手思思(17757154048,微信同号)

此图片的alt属性为空;文件名为image-82.png

若您为人工智能服务商,可添加数字化转型网小助手Nora,加入人工智能行业交流群。

此图片的alt属性为空;文件名为image-83.png

若您为人工智能创业者,可添加数字化转型网社群主理人Carina,加入人工智能创业交流群。

此图片的alt属性为空;文件名为image-84.png

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

此图片的alt属性为空;文件名为image-12.png

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/105049.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部