国思软件 - Meta触觉机械手登Science子刊封面，操作未知物体精度最高提升94%

　　奇月发自凹非寺量子位公众号 QbitAI

　　现在，随便丢给机械手一个陌生物体，它都可以像人类一样轻松拿捏了——

　　除了苹果，罐头、乐高积木、大象玩偶、骰子，都不在话下：

　　这就是来自 Meta FAIR 团队最新的 NeuralFeels 技术，通过融合触觉和视觉，机械手可以更精确地操作未知物体，精度最高提升了 94%！

　　这项研究还登上了 Science Robotics 的封面，团队同时也公开了包含 70 个实验的新测试基准 FeelSight。

　　如何让机械手精确操作未知物体？

　　让机械手拿取常见的魔方、水果等早已是基操，但如何让机器人更好地操作未知物体一直是一个研究难题。

　　一个重要原因是目前的机械手训练都太过于依靠视觉，并且仅限于操作已知的先验物体，而现实中很多时候物体都会受到视觉遮挡，导致训练往往进步缓慢。

　　对此，团队研发出一种名为 NeuralFeels 的创新技术，为机器人在复杂环境中的物体感知与操作带来了新的突破。

　　这究竟是怎么做到的呢？让我们来一起看一下技术细节——

　　融合了触觉的多模态感知

　　NeuralFeels 技术的创新之处在于结合了视觉和触觉，通过多模态融合的方式，让机器手能够对未知物体持续进行 3D 建模，更精确地估计手持操作中物体的姿态和形状。

　　具体的处理流程如下图所示，前端实现了视觉和触觉的鲁棒分割和深度预测，而后端将此信息结合成一个神经场，同时通过体积采样进一步优化姿态。

　　而在遮挡视角下，视觉与触觉融合有助于提高跟踪性能，还可以从无遮挡的局部视角进行跟踪。团队在摄像机视角的球面上量化了这些收益。

　　从下图中可以观察到，当视觉严重遮挡时，触觉的作用更大，而在几乎没有遮挡时，触觉会发挥微调作用。

　　前端深度学习策略

　　首先来看看 NeuralFeels 技术的前端（Front end），它采用了基于深度学习的分割策略和触觉 Transformer，可以精确提取目标对象深度。

用运动学分割一切

　　神经优化非常依赖分割对象的输入深度，所以团队将前端设计成能够从视觉中鲁棒地提取对象深度的形式。深度在 RGB-D 相机中是现成的，但为了应对严重遮挡的问题，团队还引入了一种基于强大视觉基础模型的动力学感知分割策略。

触觉 Transformer

　　最近有研究表明，在自然图像中使用 ViT 进行密集深度预测更有效，于是团队提出了一种触觉 Transformer，用于通过视觉触觉预测接触深度，这个 Transformer 完全在模拟中训练，可在多个真实世界的 DIGIT 传感器上通用。机械手可以用嵌入式摄像头直接感知发光的胶垫，通过监督学习获得接触深度。