OpenAI发布了有史以来最强的NLP预训练模型GPT-3

OpenAI发布了有史以来最强的NLP预训练模型GPT-3
2020/6/9 20:34:35	4080

2020年5月底OpenAI发布了有史以来强的NLP预训练模型GPT-3，大的GPT-3模型参数达到了1750亿个参数。论文《Language Models are Few-Shot Learners》长达74页已发布在arXiv。有网友估算大的GPT-3模型大小大约有700G，这个大小即使OpenAI公开模型，我们一般的电脑也无法使用。一般需要使用分布式集群才能把这个模型跑起来。虽然OpenAI没有公布论文的花费，不过有网友估计这篇论文大约花费了上千万美元用于模型训练。如此惊人的模型在模型的设计上和训练上有什么特别之处吗？答案是没有。作者表示GPT-3的模型架构跟GPT-2是一样的，只是使用了更多的模型参数。模型训练也跟GPT-2是一样的，使用预测下一个词的方式来训练语言模型，只不过GPT-3训练时使用了更多的数据。既然这样，那这只怪兽特别之处是什么？GPT-3论文的核心在于下图：

上一篇下一篇

技术支持

关于创泽

隐私条款

咨询热线

销售咨询

客服热线