大模型在机器人领域研究与应用案例汇总

大模型在机器人领域研究与应用案例汇总
2024/10/17 10:41:53	1148

目前大模型技术已从单纯的大语言模型（LLM）发展到图像-语言多模态模型（VLM）乃至图像-语言-动作多模态模型（VLA），其中图像-语言-动作多模态模型（VLA）的推出，实现了数据与处理任务的跃升。从文本到图像再到现实世界，大模型的数据模态逐渐丰富，数据规模的数量J迅速增长，大模型的应用场景和价值量也成比例扩张。在人形机器人L域，AI 大模型将会从感知（语音、视觉）、决策、控制等多方面与人形机器人结合，形成感知、决策、控制闭环，提升机器人的智能水平。未来人形机器人大模型的方向将会是感知-决策-控制一体化的端到端通用大模型，集合大规模数据集管理、云边端一体计算架构、多模态感知与环境建模等技术。 1 微软 ChatGPT 在机器人L域的应用主要体现在两个方面：自然语言交互和自动化决策。在自然语言方面，机器人可以通过 ChatGPT 来理解人类的自然语言指令，并根据指令进行相应的动作；在自动化决策方面，机器人可以通过 ChatGPT 来生成任务方案，根据任务要求做出相应的决策。柏林工业大学和 Google Robotics 团队 PaLM-E 是大的多模态视觉语言模型，在 PaLM 模型基础上，引入了具身化和多模态概念，实现了指导现实世界机器人完成相应任务的功能。 2 谷歌 RT-2 个控制机器人的视觉-语言-动作（Vision-Language-Action， VLA）模型，通过将 VLM 预训练与机器人数据相结合，能够端到端直接输出机器人的控制。斯坦福大学李飞飞团队 VoxPoser 智能系统 VoxPose 可以从大模型 LLM 和视觉语言模型 VLM 中提取可行性和约束，以构建 3D 仿真环境中的值地图，供运动规划器使用，用于零样本地合成机器人操纵任务的轨迹，从而实现在真实世界中的零样本机器人操纵。 3 Meta 和 CMU 团队 RoboAgent 采用了大规模机器人数据集进行训练，考虑到机器人在现实世界中的训练和部署效率问题，Meta 将数据集限制到了 7500 个操作轨迹中，并基于此让 RoboAgent 实现了 12 种不同的复杂技能，包括烘焙、拾取物品、上茶、清洁厨房等任务，并能在 100 种未知场景中泛化应用。 4 英伟达 Eureka 该系统以 OpenAI 的 GPT-4 为基础，本质是一种由大模型驱动的算法生成工具，能训练实体机器人执行例如“转笔”、“开抽屉”、“拿剪刀”、“双手互传球”等多种复杂动作。 5 英伟达 GR00T 目标是成为人形机器人通用大模型，旨在让人形机器人理解自然语言文本、语音、视频，以模仿人类运动，并与现实世界互动。 6 阿里云机器人大模型方案集成了通义千问、通义万相等基础模型及阿里云物联网平台，可赋予机器人知识库问答、工艺流程代码生成、机械臂轨迹规划、3D 目标检测和动态环境理解等全方位能力，不仅可以大幅降低机器人开发的门槛，还让机器人轻松完成灵活性更G的非标任务，推动机器人在更广泛的应用场景落地。 7 华为盘古大模型 “盘古”大模型具备强大的语义理解、动态规划、多模态信号理解等能力，将为人形机器人大模型的开发提供智能化决策基础。依托盘古大模型的数据处理能力，可建立丰富且G质量的人形机器人数据集，并且充分发挥盘古大模型的多模态能力，实现复杂任务场景下综合感知和任务分解，提升各类泛化场景下的具身智能操作水平。

上一篇下一篇

返回顶部 ∧

技术支持

关于创泽

隐私条款

咨询热线

销售咨询

4006-935-088 / 4006-937-088

客服热线

版权所有 @ 创泽智能机器人集团股份有限公司
运营中心 / 北京市·清华科技园九号楼5层
生产中心 / 山东省日照市开发区太原路71