近日,银河通用联合北京大学、阿德莱德大学、浙江大学团队,推出了全球首个跨本体全场景全景导航基础模型——NavFoM(Navigation Foundation Model)。这一创新模型旨在将各种机器人导航任务整合到一个统一的框架中,包括视觉和语言导航、目标导向导航、视觉跟踪和自动驾驶等应用场景。
NavFoM的特点之一是其全场景支持能力。无论是在室内还是室外,该模型都可以在看不见的环境中运行,无需先验知识,无需额外的映射或数据收集。这意味着用户可以更方便地将这项技术应用于各种环境,而无需繁琐的准备工作。数字化转型网www.szhzxw.cn
此外,NavFoM还具有多任务支持功能,使其能够通过自然语言指令执行目标跟踪和自主导航等任务。这种设计使得不同的机器人能够快速适应,各种规模的机器人,从机器狗到无人机,从轮式人形机器人到汽车,都可以在这个框架内高效运行。
从技术角度来看,NavFoM 引入了两项关键创新:首先是 TVI 代币(Temporal-Viewpoint-Indexed Tokens),它使模型能够理解时间和方向;其次,BATS 策略(Budget-Aware Token Sampling),即使在有限的计算资源下,它也能使模型表现良好。数字化转型网www.szhzxw.cn
值得注意的是,NavFoM 构建了一个大型跨任务数据集,其中包含大约 800 万个跨任务、跨本体导航数据,以及 400 万个开放式问答数据。这个训练量是之前工作的两倍,赋予了模型更强的语言和空间语义理解能力。
NavFoM 的发布标志着机器人导航领域的重大进步。开发人员可以在该模型的基础上进行构建,并通过后续训练进一步开发适合特定需求的应用程序模型。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然
