1 月 23 日,智元机器人与北京大学联合实验室宣布,推出通用机器人操作框架「OmniManip」。
据了解,智元机器人与北京大学联合实验室为解决「视觉语⾔基础模型(VLMs)如何应⽤于机器⼈,以实现通⽤操作」这一具身智能领域的难题,携⼿提出了「OmniManip」架构。「OmniManip」基于以对象为中⼼的 3D 交互基元,将 VLM 的高层次推理能力转化为机器⼈的低层次高精度动作。
针对⼤模型幻觉问题和真实环境操作的不确定性,OmniManip 创新性地引⼊了 VLM 规划和机器⼈执⾏的双闭环系统设计,实现了操作性能的显著突破。实验结果表明,OmniManip 作为⼀种免训练的开放词汇操作⽅法,在各种机器⼈操作任务中具备强⼤的零样本泛化能⼒。
目前,项目主页与论文已上线,实验室表示代码与测试平台即将开源。