集合视觉、触觉、语言等多模态的信息输入,预测动作输出能力
实现从多模态感知输入直接映射到机器人控制动作的完整闭环能力
提升机器人在复杂场景中的推理与任务泛化能力
多模态端到端模型赋能机器人多维感知与精准操控
实现复杂物理交互任务的自主执行