字节跳动种子团队近日宣布推出 3D 生成大模型 Seed3D 1.0,它可以从单个图像端到端生成高质量的模拟级 3D 模型,包括详细的几何形状、逼真的纹理和基于物理的渲染(PBR)材质。这一创新成果有望为具身智能的发展提供强大的世界模拟器支持,解决当前技术中物理交互能力和内容多样性的瓶颈。
在开发过程中,Seed 团队收集并处理了大规模的高质量 3D 数据,构建了一个完整的三阶段数据处理管道,将海量异构原始 3D 数据转化为高质量的训练集。Seed3D 1.0 使用基于 Diffusion Transformer 架构的模型,通过端到端的技术方法实现从单张图像到仿真级 3D 模型的快速生成。该模型在几何生成方面表现出色,准确构建结构细节,确保物理完整性;在纹理贴图生成中,通过多模态的 Diffusion Transformer 架构保证不同视角之间的一致性;在PBR材料生成中,采用估计方法框架,提高了材料估计的准确性。
Seed3D 1.0 的生成能力在多次比较评估中显示出显着优势。在几何生成方面,1.5B参数Seed3D 1.0超越了3B参数的行业模型,能够更准确地还原复杂物体的精细特征。在纹理材质生成方面,Seed3D 1.0在保持参考图像一致性方面表现出色,尤其在精细文本生成和字符生成方面表现出明显优势。人体测评结果显示,Seed3D 1.0在几何质量、材质纹理、视觉清晰度、细节丰富度等多个维度都获得了不错的成绩。
Seed3D 1.0 不仅可以生成单个物体的 3D 模型,还可以通过分步生成策略构建完整的 3D 场景。生成的 3D 模型可以无缝导入到 Isaac Sim 等仿真引擎中,只需最少的适配工作即可支持具身智能大模型训练。该能力为机器人训练提供了多样化的作场景,实现了交互学习,构建了视觉-语言-动作模型的综合评估基准。
尽管 Seed3D 1.0 在 3D 模型和场景生成方面表现出色,但 Seed 团队也认识到,基于 3D 生成大模型构建世界模型仍面临提高生成精度和泛化性等挑战。未来,该团队将尝试引入多模态大语言模型(MLLM),以增强3D生成的质量和鲁棒性,并促进3D生成模型在世界模拟器中的大规模应用。
项目首页:
https://seed.bytedance.com/seed3d
体验词条:
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然
