大模型与智能机器人结合,用语言指导机器人抓取物体

大模型与智能机器人结合,用语言指导机器人抓取物体
2023/9/6 14:29:33	3961

从斯坦福大学的 VIMA 机器人智能体，到谷歌 DeepMind 推出控制机器人的视觉 - 语言 - 动作（VLA）的模型 RT-2，大模型加持的机器人研究备受关注。当前，自监督和语言监督的图像模型已经包含丰富的世界知识，这对于泛化来说非常重要，但图像特征是二维的。我们知道，机器人任务通常需要对现实世界中三维物体的几何形状有所了解。基于此，来自 MIT CSAIL 和 IAIFI 的研究者利用蒸馏特征场（Distilled Feature Field，DFF），将准确的 3D 几何图形与来自 2D 基础模型的丰富语义结合起来，让机器人能够利用 2D 基础模型中丰富的视觉和语言先验，完成语言指导的操作。论文地址：https://arxiv.org/abs/2308.07931 具体来说，该研究提出了一种用于 6-DOF 抓取和放置的小样本学习方法，并利用强大的空间和语义先验泛化到未见过物体上。使用从视觉 - 语言模型 CLIP 中提取的特征，该研究提出了一种通过开放性的自然语言指令对新物体进行操作，并展示了这种方法泛化到未见过的表达和新型物体的能力。研究团队用一个讲解视频详细介绍了 F3RM 方法的技术原理：

上一篇下一篇

技术支持

关于创泽

隐私条款

咨询热线

销售咨询

客服热线