今天,腾讯正式发布并开源了混元世界大模型1.1(WorldMirror)。这个新版本在多视图和视频输入支持、单卡部署和生成速度等方面进行了重大升级,为3D重建技术的普及和应用开辟了新的可能性。
混元世界大模型1.1旨在将专业的3D重建技术变成普通用户可以轻松使用的工具。该模型可以在短短几秒钟内从视频或图像中生成专业级的3D场景,大大提高了3D重建的效率和便利性。其前身混元世界大模型1.0于今年7月发布,成为业界首个兼容传统CG流水线的开源可导航世界生成模型。新版本在此基础上通过多模态预先注入和多个任务的统一输出实现端到端 3D 重建。
该模型的三个主要特点包括灵活处理不同输入、通用 3D 视觉预测和用于二级推理的单卡部署。混元世界大模型1.1采用多模态先验引导机制,支持相机位姿、相机内部参数、深度图等多种信息的注入,确保生成的3D场景在几何上更加精确。同时,该模型实现了各种3D几何预测,包括点云、深度图、相机参数、表面法线和新颖的视图合成,表现出显着的性能优势。
与传统的3D重建方式相比,混元世界模型1.1采用纯前馈架构,在单次前向传递中直接输出所有3D属性,显著缩短了处理时间。对于 8-32 个视图的典型输入,该模型只需 1 秒即可完成推理,满足实时应用的需求。
在技术架构上,混元世界模型 1.1 采用多模态先验提示和通用几何预测架构,结合课程学习策略,使模型能够在复杂的真实环境中保持高效、准确的解析能力。通过动态注入机制,模型可以灵活处理各种先验信息,增强三维结构的一致性和重建质量。
目前,混元世界模型 1.1 已在 GitHub 上开源,允许开发人员轻松克隆仓库并将其部署到本地。同时,普通用户也可以通过HuggingFace Space在线体验,上传多视角图片或视频,实时预览生成的3D场景。这项技术的发布标志着3D重建领域的重要进步,未来将进一步推动虚拟现实、游戏开发等行业的发展。
- 项目主页:https://3d-models.hunyuan.tencent.com/world/
- Github 项目地址:https://github.com/Tencent-Hunyuan/HunyuanWorld-Mirror
- 拥抱脸模特地址:https://huggingface.co/tencent/HunyuanWorld-Mirror
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然
