蚂蚁集团式发布了名为 LingBot-VLA 的视觉语言-行动(VLA)基础模型。该模型专注于现实世界中的复杂作,并通过大规模数据训练实现了对不同类型机器人的通用作能力,标志着具身智能领域的又一重要进展。
为了构建这一强大模型,研究团队收集了约2万小时的真实远程作数据,涵盖包括AgiBot G1和AgileX在内的九款主流双臂机器人。这些数据涵盖丰富的动作序列,Qwen3-VL自动生成详细的语言指令,形成高质量的预训练数据集。
LingBot-VLA采用了创新的“混合变换器”架构。它使用 Qwen2.5-VL 作为多模态骨干,能够同时处理多视图图像和自然语言指令。同时,内置的“动作专家”分支实时结合机器人自身状态,并通过条件流量匹配技术输出平稳连续的控制轨迹,确保双臂协作的准确性。
此外,为弥补传统模型在空间深度感知方面的不足,蚂蚁集团推出了LingBot深度空间感知模型。通过特征提取技术,即使传感器数据缺失,LingBot-VLA仍展现出卓越的三维空间推理能力,在堆叠、插入和折叠等精细任务中表现尤佳。
在包含100个挑战性任务的GM-100真实基准测试中,具备深度感知功能的LingBot-VLA版本成功率为17.30%,显著优于π0.5和GR00T N1.6等其他类似模型。研究还发现,该模型数据效率极高,只需约80个演示数据即可快速适应新机器人任务。
目前,蚂蚁集团已正式开源LingBot-VLA的完整训练工具包和模型权重。该工具包针对大规模GPU集群进行了优化,训练吞吐量是现有主流框架的1.5到2.8倍。此举将大幅降低机器人大型模型的发展门槛,推动具身智能技术在更实用应用场景中的渗透。
若您对人工智能感兴趣,可添加数字化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商,可联系数字化转型网小助手思思(17757154048,微信同号)

若您为人工智能服务商,可添加数字化转型网小助手Nora,加入人工智能行业交流群。

若您为人工智能创业者,可添加数字化转型网社群主理人Carina,加入人工智能创业交流群。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然
