大模型与智能机器人结合,用语言指导机器人抓取物体 |
||
2023/9/6 14:29:33 | 3882 | |
从斯坦福大学的 VIMA 机器人智能体,到谷歌 DeepMind 推出首个控制机器人的视觉 - 语言 - 动作(VLA)的模型 RT-2,大模型加持的机器人研究备受关注。 当前,自监督和语言监督的图像模型已经包含丰富的世界知识,这对于泛化来说非常重要,但图像特征是二维的。我们知道,机器人任务通常需要对现实世界中三维物体的几何形状有所了解。 基于此,来自 MIT CSAIL 和 IAIFI 的研究者利用蒸馏特征场(Distilled Feature Field,DFF),将准确的 3D 几何图形与来自 2D 基础模型的丰富语义结合起来,让机器人能够利用 2D 基础模型中丰富的视觉和语言先验,完成语言指导的操作。 论文地址:https://arxiv.org/abs/2308.07931 具体来说,该研究提出了一种用于 6-DOF 抓取和放置的小样本学习方法,并利用强大的空间和语义先验泛化到未见过物体上。使用从视觉 - 语言模型 CLIP 中提取的特征,该研究提出了一种通过开放性的自然语言指令对新物体进行操作,并展示了这种方法泛化到未见过的表达和新型物体的能力。 研究团队用一个讲解视频详细介绍了 F3RM 方法的技术原理:
|
||
上一篇 下一篇 |
返回顶部 ∧ |
技术支持 |
关于创泽 |
隐私条款 |
|
版权所有 @ 创泽智能机器人集团股份有限公司 运营中心 / 北京市·清华科技园九号楼5层 生产中心 / 山东省日照市开发区太原路71 |