人工智能资讯|ServiceNow 与 Anthropic 携手：一场大型合作，开启企业 AI 多模型新纪元-数智化转型网szhzxw.cn

1月29日，继空间感知和VLA基础模型持续发布后，蚂蚁灵波科技再次超越行业预期，开源了世界模型LingBot-World。该模型在视频质量、动态性、长期一致性和交互功能等关键指标上与谷歌Genie3相当，旨在为具身智能、自动驾驶和游戏开发提供一个高保真、高度动态且实时可控的“数字训练场”。

（图解：LingBot-World在应用场景、生成周期、动态性和分辨率方面处于行业顶尖水平）

关于视频生成中最常见的问题——“长期漂移”（即物体可能变形、细节崩塌、主要主体消失或场景结构长时间崩解），LingBot-World通过多阶段训练和并行化加速实现近10分钟连续稳定无损生成，支持复杂任务、多步骤和长序列。

在交互性能方面，LingBot-World 可实现约 16 FPS 的生成吞吐量，并将端到端交互延迟保持在 1 秒以内。用户可以通过键盘或鼠标实时控制角色和摄像机视角，并根据指令获得即时视觉反馈。此外，用户还可以通过文本触发环境变化和世界事件，如调整天气、改变视觉风格或生成特定事件，并在保持场景中几何关系相对一致的前提下完成这些变化。

（图说明：一致性应力测试，摄像机移动最多60秒后返回，目标物体依然存在并保持结构一致性）

（图示描述：在高度动态的环境中，摄像机长时间远离后返回，车辆的形状和外观保持一致）

（图示描述：摄像机长时间移开后返回，房屋依然存在并保持结构一致性）

该模型具备零点泛化能力。只需输入一张真实照片（如城市街景）或游戏截图，即可生成交互式视频流，无需额外训练或数据收集，从而降低不同场景间的部署和使用成本。

为解决世界模型训练中缺乏高质量交互数据的问题，LingBot-World 采用了混合数据收集策略：一方面，它清理大规模网络视频以覆盖多种场景;另一方面，它结合游戏收集与虚幻引擎（UE）合成流水线，直接从渲染层提取干净的视觉效果，且不干扰用户界面。同时记录作指令和摄像机姿态，提供精确对齐的训练信号，帮助模型学习“动作如何改变环境”。

具身智能的大规模部署面临一个核心挑战——对于复杂长期任务极其稀缺的实机训练数据。LingBot-World 凭借其长期序列一致性（即记忆能力）、实时交互响应以及对“行为与环境变化”因果关系的理解，能够在数字世界中“想象”物理世界，为智能代理提供一个低成本、高保真度的实验和学习空间。同时，LingBot-World支持多样化的场景生成（如光照和位置变化），这也有助于提升具身智能算法在现实场景中的泛化能力。

随着“灵波”系列中三个大型模型的持续发布，蚂蚁的AGI战略实现了从数字世界向物理感知的关键扩展。这表明“基础模型——通用应用——物理交互”的全栈路径已经变得清晰。Ant通过InclusionAI社区开放所有模型，与行业合作探索AGI的边界。一个旨在深度整合开源与开放协作、服务于现实世界场景的AGI生态系统正在加速形成。

目前，LingBot-World 的模型权重和推理代码已向社区开放。

若您对人工智能感兴趣，可添加数字化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商，可联系数字化转型网小助手思思（17757154048，微信同号）