1月30日,继空间感知模型、具身大模型和世界模型“连续三次发布”后,蚁人灵波科技今日宣布实体化世界模型LingBot-VA开源发布。LingBot-VA引入了一种新颖的自回归视频-动作世界建模框架,深度整合了大规模视频生成模型与机器人控制。该模型在直接模拟和输出相应动作序列的同时生成下一个世界状态,使机器人能够像人类一样“模拟并行动”。
在真实机器人评估中,LingBot-VA展现出对复杂物理交互的强烈适应能力。面对三类六项挑战性任务——长期任务(做早餐、捡螺丝)、高精度任务(插入试管、开箱)以及作柔性和关节物体(折叠衣物、折叠裤子)——只需30~50个真实机器人演示数据样本即可适应,任务成功率平均比行业强基线Pi0.5高出20%。
(图注:在实机评估中,LingBot-VA在多项复杂作任务中优于行业基准Pi0.5)
在模拟评估中,LingBot-VA首次在高难度双臂协作作基准RoboTwin 2.0上达到了90%以上的成功率,在长期终身学习基准LERO上实现了98.5%的平均成功率,两者均创下了行业新纪录。
(图注:LingBot-VA在LIBERO和RoboTwin 2.0模拟基准测试中突破当前SOTA)
据报道,LingBot-VA采用了变换金刚混合(MoT)架构,实现了视频处理与动作控制的跨模态融合。通过独特的闭环仿真机制,模型在生成的每个阶段都融入了现实世界的实时反馈,确保生成的图像和动作与物理现实保持一致,从而使机器人能够完成复杂且困难的任务。
为克服机器人边缘设备上大规模视频世界模型的计算瓶颈,LingBot-VA设计了异步推理流水线,使动作预测和运动执行并行化;同时,它引入了基于内存缓存和噪声历史增强策略的持久机制,使得推理过程中输出动作指令稳定且精确,生成步骤更少。这些优化使LingBot-VA既能深入了解大型模型,又具备真实机器人控制所需的低延迟响应速度。
蚁灵波表示,继此前的LingBot-World(模拟环境)、LingBot-VLA(智能基地)和LingBot-Depth(空间感知)等开源发布后,LingBot-VA开辟了“世界模型赋能具身作”的新路径。蚁集团将继续依靠InclusionAI社区推动开源与行业合作,构建具身智能的基础能力,加速构建深度与开源集成、服务于真实工业场景的AGI生态系统。
目前,LingBot-VA的模型权重和推理代码已完全开源。
若您对人工智能感兴趣,可添加数字化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商,可联系数字化转型网小助手思思(17757154048,微信同号)

若您为人工智能服务商,可添加数字化转型网小助手Nora,加入人工智能行业交流群。

若您为人工智能创业者,可添加数字化转型网社群主理人Carina,加入人工智能创业交流群。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然
