机器人多模态视觉语言导航技术解析

机器人多模态视觉语言导航技术解析
2022/4/21 13:55:13	4139

计算机视觉（CV）和自然语言处理（NLP）早先是两个较为d立的研究L域。CV 重点关注如何用计算机代替人眼对目标完成识别、跟踪、测量等任务，对图像进行处理；NLP 则研究计算机如何处理、运用自然语言，包括语言生成、问答、对话等任务。近年来，以深度神经网络为代表的机器学习和模式识别技术被广泛应用于 CV 和 NLP L域，取得了目前先进的效果。近年来，研究者们试图将动作控制也引入到「视觉-语言」任务的框架中。吴琦将此类任务命名为 V3A（Vision, Ask, Answer, Act），在给定视觉输入后，我们希望机器能够提出问题、回答问题、并通过和人以及机器之间的语言交流执行某些动作。例如，「Vision+Ask」的任务包含视觉问题生成、根据问题生成查询、图像描述等；「Vision+Answer」的任务包含视觉问答、视觉对话等；「Vision+Act」的任务包含指称表达、视觉对齐（visual grounding）、语言引导的视觉导航、具身视觉问答、具身指称表达等。

上一篇下一篇

技术支持

关于创泽

隐私条款

咨询热线

销售咨询

客服热线