大模型在机器人领域研究与应用案例汇总

2024/10/17 10:41:53 4717 
 

目前大模型技术已从单纯的大语言模型(LLM)发展到图像-语言多模态模型(VLM)乃 至图像-语言-动作多模态模型(VLA),其中图像-语言-动作多模态模型(VLA)的推出,实 现了数据与处理任务的跃升。从文本到图像再到现实世界,大模型的数据模态逐渐丰富,数 据规模的数量J迅速增长,大模型的应用场景和价值量也成比例扩张。

在人形机器人L域,AI 大模型将会从感知(语音、视觉)、决策、控制等多方面与人形 机器人结合,形成感知、决策、控制闭环,提升机器人的智能水平。

未来人形机器人大模型的方向将会是感知-决策-控制一体化的端到端通用大模型,集合 大规模数据集管理、云边端一体计算架构、多模态感知与环境建模等技术。

1 微软 ChatGPT

在机器人L域的应用主要体现在两个方面:自然语言交互和自动化决 策。在自然语言方面,机器人可以通过 ChatGPT 来理解人类的自然语 言指令,并根据指令进行相应的动作;在自动化决策方面,机器人可以 通过 ChatGPT 来生成任务方案,根据任务要求做出相应的决策。

柏林工业大学和 Google Robotics 团队 PaLM-E

是大的多模态视觉语言模型,在 PaLM 模型基础上,引入了具身化和 多模态概念,实现了指导现实世界机器人完成相应任务的功能。

2 谷歌 RT-2

个控制机器人的视觉-语言-动作(Vision-Language-Action, VLA)模型,通过将 VLM 预训练与机器人数据相结合,能够端到端直接 输出机器人的控制。

斯坦福大学李飞飞团队 VoxPoser

智能系统 VoxPose 可以从大模型 LLM 和视觉语言模型 VLM 中提取可行 性和约束,以构建 3D 仿真环境中的值地图,供运动规划器使用,用于 零样本地合成机器人操纵任务的轨迹,从而实现在真实世界中的零样 本机器人操纵。

3 Meta 和 CMU 团队 RoboAgent

采用了大规模机器人数据集进行训练,考虑到机器人在现实世界中的 训练和部署效率问题,Meta 将数据集限制到了 7500 个操作轨迹中,并 基于此让 RoboAgent 实现了 12 种不同的复杂技能,包括烘焙、拾取物 品、上茶、清洁厨房等任务,并能在 100 种未知场景中泛化应用。

4 英伟达 Eureka

该系统以 OpenAI 的 GPT-4 为基础,本质是一种由大模型驱动的算法生 成工具,能训练实体机器人执行例如“转笔”、“开抽屉”、“拿剪 刀”、“双手互传球”等多种复杂动作。

5 英伟达 GR00T

目标是成为人形机器人通用大模型,旨在让人形机器人理解自然语言文本、语音、视频,以模仿人类运动,并与现实世界互动。

6 阿里云机器人大模型

方案集成了通义千问、通义万相等基础模型及阿里云物联网平台,可赋予机器人知识库问答、工艺流程代码生成、机械臂轨迹规划、3D 目标 检测和动态环境理解等全方位能力,不仅可以大幅降低机器人开发的 门槛,还让机器人轻松完成灵活性更G的非标任务,推动机器人在更广 泛的应用场景落地。

7 华为盘古大模型

“盘古”大模型具备强大的语义理解、动态规划、多模态信号理解等能 力,将为人形机器人大模型的开发提供智能化决策基础。依托盘古大模 型的数据处理能力,可建立丰富且G质量的人形机器人数据集,并且充分发挥盘古大模型的多模态能力,实现复杂任务场景下综合感知和任 务分解,提升各类泛化场景下的具身智能操作水平。


 
上一篇   下一篇
 
返回顶部
  技术支持
  关于创泽
  隐私条款
咨询热线
 
销售咨询
4006-935-088 / 4006-937-088
 
客服热线
4008-128-728

版权所有 @ 创泽智能机器人集团股份有限公司
运营中心 / 北京市·清华科技园九号楼5层
生产中心 / 山东省日照市开发区太原路71