告别“路痴”机器人：Odin-Nav-Stack 开源，让机器人真正看懂、记住并走向真实世界

留形科技 · 2025-12-26 00:00

为什么许多机器人在真实场景中“反应迟钝”“认错物体”“记不住路”？根本原因在于感知输入质量不足——噪声大、语义弱、时空不连续。6月，我们正式推出空间记忆模组Odin1：一款轻量、On-Device的具身认知引擎模组，能够为具身智能体提供多模态空间的数据流（RGB/Depth/PointCloud/IMU/Odometry）。

12月，依托留形最新研发的Odin-Nav-Stack，我们让宇树Go2 EDU（搭载官方Jetson Orin Nano算力模组）在Odin1的本体端侧感知支持下，实现了“感知-记忆-理解-行动”的完整闭环：机器狗能自主构建并保持空间记忆、听懂自然语言、找准物体与目标位置、生成可行动语义并执行路径规划，在真实场景中稳定完成指令驱动的导航与物体级交互行动。

Odin-Nav-Stack是一套完整、模块化的上层ROS智能软件栈，针对Odin1的多模态数据流进行适配与优化，将原始感知转化为：高鲁棒定位、语义增强导航、可交互世界认知。让开发者能轻松地将Odin1的高质量感知能力，快速转化为机器人的“空间理解力”。

01 | 基石：稳定可靠的空间记忆（MindSLAM®）

传统SLAM往往依赖激光雷达与复杂的后端优化链路，计算开销大、对场景依赖强、启动与重定位耗时明显。Odin-Nav-Stack基于Odin1的多模态帧间一致性设计，在轻量架构下实现了实时、稳定、可持续的空间记忆构建。

Odin1内置里程计可完全独立运行，无需占用主控CPU。通过多模态特征对齐（视觉、深度、IMU的时间同步与几何一致性）实现即时位姿解算，位置误差稳定维持在5cm内，为后续地图构建与行为生成提供高置信度的便捷状态估计。

Odin1内置重定位功能，利用跨帧语义锚点与几何残差的联合评分，实现对历史关键帧的快速召回。在无需外部地图服务器的情况下，系统可在2米范围内完成高精度回环收敛，有效避免因短时遮挡、动态物体干扰或局部退化而导致的“迷路”状态。机器人因此能够在开放环境中保持连续、可靠的空间认知，不依赖高算力平台。

02 | 引擎：Odin1让导航变得灵活高效

基于MindSLAM®构建的空间记忆底座，我们开源全栈可定制导航方案，覆盖从快速部署到前沿研究。

Plug&Go Nav：面向快速落地场景，通过ROS直接接入语义地图与Odin1的定位服务，实现“即插即用”的导航部署流程。开发者无需修改已有机器人底层，即可在约30分钟内完成从感知到路径规划的完整配置，适用于巡检、教学与行业项目的快速交付。

Modular Stack：为算法开发者提供全链路的可替换式架构，涵盖代价地图→ 全局规划→局部规划等主流模块。各层均具备标准化接口，支持在不改动数据结构的前提下热替换为自研组件，例如将局部规划器切换为MPC或学习式控制器，用于新算法验证与科研原型搭建。

End-to-End Avoidance：面向高动态和高不确定性的环境，通过融合Odin1的空间记忆与实时点云流，实现连续的可通行性预测与逐帧动态避障。不同于传统方法依赖单一深度图或激光测距，该方案能够在密集人群、移动障碍、狭窄空间等情况下维持稳定的动作生成，实现更接近具身智能的高层行为决策。

以上三种方式使得Odin-Nav-Stack既可作为行业项目的部署引擎，也能成为研究者构建下一代空间智能算法的实验平台。

物体级交互：让机器围绕物体执行任务

Object Navigation不再停留在传统视觉任务的bounding box输出，而是让机器人获得“可行动语义”（Actionable Semantics）：不仅知道物体在哪里，还能理解如何围绕该物体执行空间行为。

Object Navigation以Odin1的多模态输入为基础，将视觉检测、语义理解与三维几何推理统一在同一坐标系中。系统支持中文/英文自然语言指令与语音输入，可将指令中的空间描述（如“左侧”“后方”“更近”“最前排”）映射到真实三维坐标中。

示例：当用户发出指令“Move to Person Right”，系统会首先在场景中识别“Person”的实例，并基于点云与深度数据计算它们的三维相对位姿，选择最近目标后自动推理出可行目标点。随后由导航栈生成可到达轨迹，并将底层控制指令下发至机器人本体，使其精确抵达指定空间位置。

该能力使机器人从单纯“识别物体”升级为真正围绕物体完成到达、绕行、靠近、保持距离等具身交互动作，为物体操作、室内服务、人机协作等任务提供关键基元。

场景级描述：让机器用语言汇报所见

在具身智能中，机器人不仅要“看到物体”，更需要以人类可理解的方式解释所感知的环境。VLM Scene Understanding集成视觉语言模型，完成从多模态感知到语义叙述的推理，使机器人具备面向人类的场景讲述能力。

系统通过Odin1的多模态空间数据（RGB、深度、点云、里程计）构建统一的三维场景表示，再由VLM（API-Key Request）对该表示进行语义抽取。

示例：当用户输入“Describe what you see”，Odin-Describe能基于当前三维场景的语义布局，生成结构化且与空间一致的描述。例如，在开放式办公区中，系统能够输出：“A chair in an outdoor area looks slightly askew.” 描述内容不仅涵盖类别与属性，还包含距离、方向、几何关系等关键空间要素。

架构层面，Odin-Describe的代码结构保持高度模块化：感知融合模块、空间表征模块与VLM模块相互解耦，可自由替换不同规模与类型的VLM如LLaVA、MiniGPT-4等。开发者可基于此实现从简单问答到连续对话、从静态描述到任务辅助解释的更多交互能力，加速构建具备可解释性与主动性的具身智能体。视觉语言导航。

指令级导航：让机器听懂一句话并抵达

VLN的核心目标是让机器人将自然语言指令与空间感知直接对齐，使其不仅能解释场景，还能根据语言描述在真实环境中完成导航行为。将Odin1的多模态空间表征交由视觉语言模型（VLM）处理（API-Key Request），完成指令解析、目标抽象与可行动语义生成。

示例：当用户给出语言指令“Follow the person wearing the gray shirt.”），系统首先利用LLM识别指令中的关键语义成分，并结合实时场景理解结果推断目标区域的三维位置。在此基础上，VLN模块将语言推理输出转换为可达目标点及相关导航参数，随后由Odin-Nav执行路径规划、避障与运动控制，使机器人能够在自然语言的指导下自主穿越环境。

架构保持高度模块化：VLM可自由替换（如LLaVA、MiniGPT-4），语言解析、目标抽象、路径执行三个阶段清晰解耦，便于从研究原型到工程部署的快速迁移。通过VLN，Odin1系统从“能描述世界”进一步走向“能在世界中执行任务”，让自然语言成为通用的导航与交互接口。

我们提供了高精度三维定位，语义建图，自然语言导航的开源代码库，并已着手开发多机协同记忆、长周期建图与场景专用模块等高级功能。我们坚信具身智能的突破来自每一位开发者的实践与创造。

返回新闻列表

01 | 基石：稳定可靠的空间记忆（MindSLAM®）

02 | 引擎：Odin1让导航变得灵活高效

物体级交互： 让机器围绕物体执行任务

场景级描述： 让机器用语言汇报所见

指令级导航： 让机器听懂一句话并抵达

物体级交互：让机器围绕物体执行任务

场景级描述：让机器用语言汇报所见

指令级导航：让机器听懂一句话并抵达