1月29日,继空间感知和VLA基础模型持续发布后,蚂蚁灵波科技再次超越行业预期,开源了世界模型LingBot-World。该模型在视频质量、动态性、长期一致性和交互功能等关键指标上与谷歌Genie3相当,旨在为具身智能、自动驾驶和游戏开发提供一个高保真、高度动态且实时可控的“数字训练场”。
(图解:LingBot-World在应用场景、生成周期、动态性和分辨率方面处于行业顶尖水平)
关于视频生成中最常见的问题——“长期漂移”(即物体可能变形、细节崩塌、主要主体消失或场景结构长时间崩解),LingBot-World通过多阶段训练和并行化加速实现近10分钟连续稳定无损生成,支持复杂任务、多步骤和长序列。
在交互性能方面,LingBot-World 可实现约 16 FPS 的生成吞吐量,并将端到端交互延迟保持在 1 秒以内。用户可以通过键盘或鼠标实时控制角色和摄像机视角,并根据指令获得即时视觉反馈。此外,用户还可以通过文本触发环境变化和世界事件,如调整天气、改变视觉风格或生成特定事件,并在保持场景中几何关系相对一致的前提下完成这些变化。
(图说明:一致性应力测试,摄像机移动最多60秒后返回,目标物体依然存在并保持结构一致性)
(图示描述:在高度动态的环境中,摄像机长时间远离后返回,车辆的形状和外观保持一致)
(图示描述:摄像机长时间移开后返回,房屋依然存在并保持结构一致性)
该模型具备零点泛化能力。只需输入一张真实照片(如城市街景)或游戏截图,即可生成交互式视频流,无需额外训练或数据收集,从而降低不同场景间的部署和使用成本。
为解决世界模型训练中缺乏高质量交互数据的问题,LingBot-World 采用了混合数据收集策略:一方面,它清理大规模网络视频以覆盖多种场景;另一方面,它结合游戏收集与虚幻引擎(UE)合成流水线,直接从渲染层提取干净的视觉效果,且不干扰用户界面。 同时记录作指令和摄像机姿态,提供精确对齐的训练信号,帮助模型学习“动作如何改变环境”。
具身智能的大规模部署面临一个核心挑战——对于复杂长期任务极其稀缺的实机训练数据。LingBot-World 凭借其长期序列一致性(即记忆能力)、实时交互响应以及对“行为与环境变化”因果关系的理解,能够在数字世界中“想象”物理世界,为智能代理提供一个低成本、高保真度的实验和学习空间。同时,LingBot-World支持多样化的场景生成(如光照和位置变化),这也有助于提升具身智能算法在现实场景中的泛化能力。
随着“灵波”系列中三个大型模型的持续发布,蚂蚁的AGI战略实现了从数字世界向物理感知的关键扩展。这表明“基础模型——通用应用——物理交互”的全栈路径已经变得清晰。Ant通过InclusionAI社区开放所有模型,与行业合作探索AGI的边界。一个旨在深度整合开源与开放协作、服务于现实世界场景的AGI生态系统正在加速形成。
目前,LingBot-World 的模型权重和推理代码已向社区开放。
若您对人工智能感兴趣,可添加数字化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商,可联系数字化转型网小助手思思(17757154048,微信同号)

若您为人工智能服务商,可添加数字化转型网小助手Nora,加入人工智能行业交流群。

若您为人工智能创业者,可添加数字化转型网社群主理人Carina,加入人工智能创业交流群。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然
