视觉大模型拥有18亿参数 30亿的标注图像进行训练

2022/10/14 14:36:28 5169 
 

预训练大模型是过去几年AI发展主旋律,但是主要集中于自然语言处理L域。视觉L域 在2021年开始迎来进展。谷歌构建了一个扩展的ViT模型,拥有18亿参数,并使用30亿的 标注图像进行训练,在ImageNet上取得了新的记录(90.45%)。这一工作还表明,在视觉L 域上,模型同样符合Scaling Lawo即:模型越大、性能越好。

SwinV2则进一步证明了视觉大模型(30亿参数)在广泛视觉问题上的有效性,其在图像 分类、物体检测、语义分割和视频分类等任务上均达到了 SoTA性能。这一工作也验证了自监 督学习对于驱动大模型训练的有效性,基于SimMIM方法,SwinV2用相比谷歌小40倍的标 注数据(7000万)达成了十亿J视觉模型的训练。


 
上一篇   下一篇
 
返回顶部
  技术支持
  关于创泽
  隐私条款
咨询热线
 
销售咨询
4006-935-088 / 4006-937-088
 
客服热线
4008-128-728

版权所有 @ 创泽智能机器人集团股份有限公司
运营中心 / 北京市·清华科技园九号楼5层
生产中心 / 山东省日照市开发区太原路71