一、GPT（Generative Pre-Training）

　　GPT-2的模型非常巨大，它其实是Transformer的Decoder。GPT-2是Transformer的Decoder部分，输入一个句子中的上一个词，我们希望模型可以得到句子中的下一个词。

　　由于GPT-2的模型非常巨大，它在很多任务上都达到了惊人的结果，甚至可以做到zero-shot learning（简单来说就是模型的迁移能力非常好），如阅读理解任务，不需要任何阅读理解的训练集，就可以得到很好的结果。

GPT-2可以自己进行写作

0-5层与0-5head的对应：

参考文献：

【1】李宏毅机器学习2019(国语)_哔哩哔哩 (゜-゜)つロ干杯~-bilibili

巴特西