如今,随着人工智能和机器人技术的快速发展,视觉-语言-动作(VLA)模型被广泛认为是构建通用机器人的关键。然而,许多现有的VLA模型(如OpenVLA、RT-2等)在处理复杂非结构化环境时暴露出一个严重缺陷:空间盲。它们依赖二维RGB图像作为视觉输入,这限制了模型在三维空间中的表现,也使得准确判断物体的深度和位置变得困难。数字化转型网www.szhzxw.cn
为解决这一问题,元里灵机研究团队推出了新的VLA框架——GeoVLA。该框架保留了现有视觉语言模型(VLM)的强大预训练能力,同时采用创新的双流架构。具体来说,GeoVLA引入了专用点云嵌入网络(PEN)和空间感知动作专家(3DAE),赋予机器人真正的三维几何感知能力。该设计不仅在仿真环境中实现领先性能,还在实际测试场景中展现出卓越的鲁棒性。
GeoVLA的核心逻辑在于解耦任务:让VLM负责“理解它是什么”,而点云网络负责“知道它在哪里”。这一全新的端到端框架包含三个关键组成部分的协作工作:语义理解流、几何感知流和动作生成流。这种方法使模型能够更准确地执行任务。数字化转型网www.szhzxw.cn
在一系列实验中,GeoVLA展示了显著优势。在LIBERO基准测试中,GeoVLA实现了97.7%的成功率,超过了之前的SOTA模型。此外,在更复杂的物理模拟测试如ManiSkill2中,GeoVLA表现异常出色,尤其在处理复杂物体和视角变化时保持了较高的成功率。
更令人印象深刻的是,GeoVLA在分布外场景中表现出鲁棒性,证明了其应对各种不确定性和变化条件的强大适应能力。这一突破将为未来机器人应用开辟新可能,推动智能机器人技术迈向更高水平。
若您对人工智能感兴趣,可添加数字化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商,可联系数字化转型网小助手思思(17757154048,微信同号)

若您为人工智能服务商,可添加数字化转型网小助手Nora,加入人工智能行业交流群。

若您为人工智能创业者,可添加数字化转型网社群主理人Carina,加入人工智能创业交流群。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然
