视觉大模型拥有18亿参数 30亿的标注图像进行训练

视觉大模型拥有18亿参数 30亿的标注图像进行训练
2022/10/14 14:36:28	3347

预训练大模型是过去几年AI发展主旋律，但是主要集中于自然语言处理L域。视觉L域在2021年开始迎来进展。谷歌构建了一个扩展的ViT模型，拥有18亿参数，并使用30亿的标注图像进行训练，在ImageNet上取得了新的记录（90.45%）。这一工作还表明，在视觉L 域上，模型同样符合Scaling Lawo即：模型越大、性能越好。 SwinV2则进一步证明了视觉大模型（30亿参数）在广泛视觉问题上的有效性，其在图像分类、物体检测、语义分割和视频分类等任务上均达到了 SoTA性能。这一工作也验证了自监督学习对于驱动大模型训练的有效性，基于SimMIM方法，SwinV2用相比谷歌小40倍的标注数据（7000万）达成了十亿J视觉模型的训练。

上一篇下一篇

技术支持

关于创泽

隐私条款

咨询热线

销售咨询

客服热线