国思软件 - 你好世界！LLM开启人形机器人新纪元

　　新智元报道

　　编辑：alan

　　由业内大佬 Amnon Shashua 创立的 Mentee Robotics，突然放出大招，将 AI 的能力嵌入到机器人的各个层面，实现了与世界的动态交互。

　　前段时间，由业内大佬 Amnon Shashua 创立的 Mentee Robotics，在憋了两年之后，突然放出大招！

　　这是一款名为 Menteebot 的人形机器人，将 AI 的能力嵌入到机器人的各个层面，实现了与世界的动态交互。

　　Menteebot 集成了尖端的 Sim2Real 学习（以获得逼真的步态和手部运动）、基于 NeRF 的实时 3D 映射和定位（用于复杂环境中的动态导航），以及大型语言模型（帮助认知世界和执行高级任务）。

　　Menteebot 实现了从口头命令，到复杂任务完成的完整端到端循环，包括导航、运动、场景理解、对象检测和定位、抓取以及自然语言理解。

　　比如在下面的例子中，Menteebot 的手臂和手呈现出全方位的运动和足够的准确性，可以执行递盘子这种精细的任务。

　　完美复刻人类的「灵巧手」：

　　先进的 Sim2Real 学习技术让 Menteebot 的动作非常敏捷，可以像人类一样朝任何方向行走、奔跑、原地转弯等。

　　来几个并步，扎个马步，都不在话下：

　　Menteebot 在搬运重物时会自动调整步态，如同人类一般。

　　——辛苦了小老弟，交给我吧：

　　此外，Menteebot 的名字还有另一个含义：

　　you can mentor（通过口头指示和视觉模仿即时学习新任务）。

　　它可以直接接受用户的语音指令，使用 LLM 来解释命令并「思考」完成任务所需的步骤。

　　然后，使用基于 NeRF 的算法，实时构建环境的认知 3D 地图，完成有关对象和项目的语义信息，并在地图中定位自身，同时规划动态路径以避开障碍物。

　　最后，它利用在 Sim2Real 中学到的知识，在路径上执行计划步骤，——简单来说，就是在模拟器中训练，在现实世界中实现。

　　上图是 Menteebot 成品的效果图和各项参数，它将被设计为两种类型：

　　命比较好的机器人会成为家庭助理，负责餐桌布置、餐桌清理、衣物处理等家务工作；

　　而命不好的就会进厂打工，干一些重活。

　　尽管 Menteebot 目前仍处于原型阶段，但有大佬的背书，我们可以期待在不久之后见到更加惊艳的效果。

　　Amnon Shashua

　　Mentee Robotics 的创始人 Amnon Shashua，1993 年在麻省理工学院（MIT）获得大脑和认知科学博士学位，1996 年之后一直在耶路撒冷希伯来大学（The Hebrew University of Jerusalem）计算机科学系任教。

　　除了学术大佬之外，Amnon Shashua 还是多家著名科技公司的创始人：自动驾驶技术公司 Mobileye 的总裁兼首席执行官；视觉设备公司 OrCam 的联合创始人； ONE ZERO 数字银行的创始人和所有者；人工智能公司 AI21 Labs 的联创、董事长。

　　除 Shashua 之外，Mentee Robotics 的创始团队还包括前 Facebook AI 研究总监 Lior Wolf，和耶路撒冷希伯来大学教授、现任 Mobileye 首席技术官的 Shai Shalev-Shwartz。

　　到目前为止，团队已经筹集了 1700 万美元，由 Ahren Innovation Capital 领投。

　　也许，新的纪元已经开启，就如 Amnon Shashua 所言：

We are on the cusp of a convergence of computer vision, natural language understanding, strong and detailed simulators, and methodologies for transferring from simulation to the real world. 我们正处于将计算机视觉、自然语言理解、强大而详细的模拟器、以及从模拟转移到现实世界的方法相融合的风口浪尖。

　　LLM 开启机器人新纪元

　　最近几个月，越来越多的项目使用大语言模型，来创建以前似乎不可能的机器人应用程序。

　　在 LLM 的加持之下，机器人可以处理自然语言命令，并完成需要复杂推理的任务。

　　感知和推理

　　创建机器人系统的经典方法需要复杂的工程，来创建规划和推理模块。

　　另外，用户界面的设计也很困难，因为人们可以用不同的方式说出相同的指令。

　　——而 LLM，包括视觉语言模型（VLM）的出现，完美解决了这些问题。