告别“路痴”机器人:Odin-Nav-Stack 开源,让机器人真正看懂、记住并走向真实世界
留形科技 · 2025-12-26 00:00
为什么许多机器人在真实场景中“反应迟钝”“认错物体”“记不住路”?根本原因在于感知输入质量不足——噪声大、语义弱、时空不连续。6月,我们正式推出空间记忆模组Odin1:一款轻量、On-Device的具身认知引擎模组,能够为具身智能体提供多模态空间的数据流(RGB/Depth/PointCloud/IMU/Odometry)。
12月,依托留形最新研发的Odin-Nav-Stack,我们让宇树Go2 EDU(搭载官方Jetson Orin Nano算力模组)在Odin1的本体端侧感知支持下,实现了“感知-记忆-理解-行动”的完整闭环:机器狗能自主构建并保持空间记忆、听懂自然语言、找准物体与目标位置、生成可行动语义并执行路径规划,在真实场景中稳定完成指令驱动的导航与物体级交互行动。

Odin-Nav-Stack是一套完整、模块化的上层ROS智能软件栈,针对Odin1的多模态数据流进行适配与优化,将原始感知转化为:高鲁棒定位、 语义增强导航、可交互世界认知。让开发者能轻松地将Odin1的高质量感知能力,快速转化为机器人的“空间理解力”。
01 | 基石:稳定可靠的空间记忆(MindSLAM®)
传统SLAM往往依赖激光雷达与复杂的后端优化链路,计算开销大、对场景依赖强、启动与重定位耗时明显。Odin-Nav-Stack基于Odin1的多模态帧间一致性设计,在轻量架构下实现了实时、稳定、可持续的空间记忆构建。
Odin1内置里程计可完全独立运行,无需占用主控CPU。通过多模态特征对齐(视觉、深度、IMU的时间同步与几何一致性)实现即时位姿解算,位置误差稳定维持在5cm内,为后续地图构建与行为生成提供高置信度的便捷状态估计。
Odin1内置重定位功能,利用跨帧语义锚点与几何残差的联合评分,实现对历史关键帧的快速召回。在无需外部地图服务器的情况下,系统可在2米范围内完成高精度回环收敛,有效避免因短时遮挡、动态物体干扰或局部退化而导致的“迷路”状态。机器人因此能够在开放环境中保持连续、可靠的空间认知,不依赖高算力平台。
02 | 引擎:Odin1让导航变得灵活高效
基于MindSLAM®构建的空间记忆底座,我们开源全栈可定制导航方案,覆盖从快速部署到前沿研究。
Plug&Go Nav:面向快速落地场景,通过ROS直接接入语义地图与Odin1的定位服务,实现“即插即用”的导航部署流程。开发者无需修改已有机器人底层,即可在约30分钟内完成从感知到路径规划的完整配置,适用于巡检、教学与行业项目的快速交付。

Modular Stack:为算法开发者提供全链路的可替换式架构,涵盖代价地图→ 全局规划→局部规划等主流模块。各层均具备标准化接口,支持在不改动数据结构的前提下热替换为自研组件,例如将局部规划器切换为MPC或学习式控制器,用于新算法验证与科研原型搭建。

End-to-End Avoidance:面向高动态和高不确定性的环境,通过融合Odin1的空间记忆与实时点云流,实现连续的可通行性预测与逐帧动态避障。不同于传统方法依赖单一深度图或激光测距,该方案能够在密集人群、移动障碍、狭窄空间等情况下维持稳定的动作生成,实现更接近具身智能的高层行为决策。
以上三种方式使得Odin-Nav-Stack既可作为行业项目的部署引擎,也能成为研究者构建下一代空间智能算法的实验平台。
物体级交互: 让机器围绕物体执行任务
Object Navigation不再停留在传统视觉任务的bounding box输出,而是让机器人获得“可行动语义”(Actionable Semantics):不仅知道物体在哪里,还能理解如何围绕该物体执行空间行为。
Object Navigation以Odin1的多模态输入为基础,将视觉检测、语义理解与三维几何推理统一在同一坐标系中。系统支持中文/英文自然语言指令与语音输入,可将指令中的空间描述(如“左侧”“后方”“更近”“最前排”)映射到真实三维坐标中。
示例:当用户发出指令“Move to Person Right”,系统会首先在场景中识别“Person”的实例,并基于点云与深度数据计算它们的三维相对位姿,选择最近目标后自动推理出可行目标点。随后由导航栈生成可到达轨迹,并将底层控制指令下发至机器人本体,使其精确抵达指定空间位置。

该能力使机器人从单纯“识别物体”升级为真正围绕物体完成到达、绕行、靠近、保持距离等具身交互动作,为物体操作、室内服务、人机协作等任务提供关键基元。
场景级描述: 让机器用语言汇报所见
在具身智能中,机器人不仅要“看到物体”,更需要以人类可理解的方式解释所感知的环境。VLM Scene Understanding集成视觉语言模型,完成从多模态感知到语义叙述的推理,使机器人具备面向人类的场景讲述能力。
系统通过Odin1的多模态空间数据(RGB、深度、点云、里程计)构建统一的三维场景表示,再由VLM(API-Key Request)对该表示进行语义抽取。

示例:当用户输入“Describe what you see”,Odin-Describe能基于当前三维场景的语义布局,生成结构化且与空间一致的描述。例如,在开放式办公区中,系统能够输出:“A chair in an outdoor area looks slightly askew.” 描述内容不仅涵盖类别与属性,还包含距离、方向、几何关系等关键空间要素。
架构层面,Odin-Describe的代码结构保持高度模块化:感知融合模块、空间表征模块与VLM模块相互解耦,可自由替换不同规模与类型的VLM如LLaVA、MiniGPT-4等。开发者可基于此实现从简单问答到连续对话、从静态描述到任务辅助解释的更多交互能力,加速构建具备可解释性与主动性的具身智能体。视觉语言导航。
指令级导航: 让机器听懂一句话并抵达
VLN的核心目标是让机器人将自然语言指令与空间感知直接对齐,使其不仅能解释场景,还能根据语言描述在真实环境中完成导航行为。将Odin1的多模态空间表征交由视觉语言模型(VLM)处理(API-Key Request),完成指令解析、目标抽象与可行动语义生成。

示例:当用户给出语言指令“Follow the person wearing the gray shirt.”),系统首先利用LLM识别指令中的关键语义成分,并结合实时场景理解结果推断目标区域的三维位置。在此基础上,VLN模块将语言推理输出转换为可达目标点及相关导航参数,随后由Odin-Nav执行路径规划、避障与运动控制,使机器人能够在自然语言的指导下自主穿越环境。
架构保持高度模块化:VLM可自由替换(如LLaVA、MiniGPT-4),语言解析、目标抽象、路径执行三个阶段清晰解耦,便于从研究原型到工程部署的快速迁移。通过VLN,Odin1系统从“能描述世界”进一步走向“能在世界中执行任务”,让自然语言成为通用的导航与交互接口。
我们提供了高精度三维定位,语义建图,自然语言导航的开源代码库,并已着手开发多机协同记忆、长周期建图与场景专用模块等高级功能。我们坚信具身智能的突破来自每一位开发者的实践与创造。