银河通用近日联合北京大学、阿德莱德大学及浙江大学等科研团队,正式推出全球首个跨本体全域环视导航基座大模型NavFoM。这一突破性成果标志着具身智能领域从单一任务模型向通用智能基座的跨越,为机器人规模化商业应用奠定关键技术基础。该模型通过统一范式实现多任务、全场景、跨本体的导航能力,使机器人首次具备类似人类的通用方向感知能力。
传统导航技术长期面临碎片化困境:不同任务(如跟随、搜索、驾驶)需独立开发算法,不同形态机器人(四足、人形、无人机)需单独训练模型。这种割裂导致模型训练效率低下、二次开发成本高昂,严重制约商业化进程。NavFoM通过构建"视频流+文本指令→动作轨迹"的统一范式,将视觉语言导航、目标导航、视觉跟踪及自动驾驶等任务整合到同一框架,实现跨任务知识迁移与跨本体经验共享。例如,四足机器人学到的避障策略可迁移至无人机,自动驾驶的路径规划能力可反哺室内机器人。
技术实现层面,NavFoM创新采用两项核心机制:其一,TVI Tokens(时空索引标记)技术为每帧画面添加时间轴与方向罗盘,使模型理解空间连续变化,兼容单目、环视、无人机等多视角输入;其二,BATS策略(预算感知标记采样)模拟人类注意力机制,动态筛选关键帧,在7B参数规模下实现毫秒级响应。实验数据显示,该模型在VLN-CE、HM3D-OVON等国际基准测试中刷新多项纪录,尤其在长程导航、复杂地形规划等任务中展现卓越泛化能力。
训练数据体系构建是另一关键突破。研究团队构建了包含1200万条跨任务数据的训练集,涵盖八百万条导航数据(覆盖视觉语言导航、目标导航、自动驾驶等)及四百万条开放问答数据。通过视觉特征缓存机制降低计算开销,使模型在仿真环境中学习后可直接部署于真实机器人。实测中,NavFoM成功驱动四足机器人完成30分钟以上稳定跟随、轮式机器人实现室内外混合导航、无人机在复杂地形规划飞行,甚至支持自动驾驶系统进行路径推理与避障决策。
基于NavFoM的统一架构,银河通用同步推出三大应用模型:TrackVLA++实现超长程稳定跟随,支持室内外复杂地形;UrbanVLA打通第三方地图软件,可在城市街道、天桥等环境中自主规划最优路径;MM-Nav突破传统避障极限,首次实现360°无死角厘米级纯视觉避障,能精准识别玻璃、细线等透明或细小障碍物。这三个模型共同构建起覆盖室内到城市、汽车到无人机的完整导航体系,推动具身智能从实验室走向真实商业场景。
此次技术突破不仅重新定义了机器人导航的底层逻辑,更通过体系化模型能力为具身智能大规模落地提供关键支撑。NavFoM与银河通用此前发布的操作基座大模型GraspVLA、GroceryVLA形成技术闭环,共同支撑起"让机器人走进千家万户、服务千行百业"的商业愿景。从学习特定任务到理解通用知识,这项成果标志着机器人真正获得"理解空间、适应变化、自主行走"的核心能力,为具身智能发展开辟全新路径。

