集合视觉、触觉、语言等多模态的信息输入,预测动作输出能力

实现从多模态感知输入直接映射到机器人控制动作的完整闭环能力

提升机器人在复杂场景中的推理与任务泛化能力

三感合一,掌控物理世界的底层密码
本体状态感知
本体状态感知
实现对机器人自身位置、姿态和力的精准感知
触觉感知
触觉感知
捕获与物体交互时的力反馈和接触事件
视觉感知
视觉感知
提供环境和目标物体的空间信息

多模态端到端模型赋能机器人多维感知与精准操控

实现复杂物理交互任务的自主执行