人工智能资讯|为机器人解锁3D视觉：月烈玲吉推出了GeoVLA框架，彻底革新了传统的VLA模型！-数智化转型网szhzxw.cn

如今，随着人工智能和机器人技术的快速发展，视觉-语言-动作（VLA）模型被广泛认为是构建通用机器人的关键。然而，许多现有的VLA模型（如OpenVLA、RT-2等）在处理复杂非结构化环境时暴露出一个严重缺陷：空间盲。它们依赖二维RGB图像作为视觉输入，这限制了模型在三维空间中的表现，也使得准确判断物体的深度和位置变得困难。数字化转型网www.szhzxw.cn

为解决这一问题，元里灵机研究团队推出了新的VLA框架——GeoVLA。该框架保留了现有视觉语言模型（VLM）的强大预训练能力，同时采用创新的双流架构。具体来说，GeoVLA引入了专用点云嵌入网络（PEN）和空间感知动作专家（3DAE），赋予机器人真正的三维几何感知能力。该设计不仅在仿真环境中实现领先性能，还在实际测试场景中展现出卓越的鲁棒性。

GeoVLA的核心逻辑在于解耦任务：让VLM负责“理解它是什么”，而点云网络负责“知道它在哪里”。这一全新的端到端框架包含三个关键组成部分的协作工作：语义理解流、几何感知流和动作生成流。这种方法使模型能够更准确地执行任务。数字化转型网www.szhzxw.cn

在一系列实验中，GeoVLA展示了显著优势。在LIBERO基准测试中，GeoVLA实现了97.7%的成功率，超过了之前的SOTA模型。此外，在更复杂的物理模拟测试如ManiSkill2中，GeoVLA表现异常出色，尤其在处理复杂物体和视角变化时保持了较高的成功率。

更令人印象深刻的是，GeoVLA在分布外场景中表现出鲁棒性，证明了其应对各种不确定性和变化条件的强大适应能力。这一突破将为未来机器人应用开辟新可能，推动智能机器人技术迈向更高水平。

若您对人工智能感兴趣，可添加数字化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商，可联系数字化转型网小助手思思（17757154048，微信同号）