前言 对Google开源出来的bert代码,来阅读下.不纠结于代码组织形式,而只是梳理下其训练集的生成,训练的self-attention和multi-head的具体实现. 训练集的生成 主要实现在create_pretraining_data.py和tokenization.py两个脚本里.输入文本格式举例,下面是两篇文章外加一篇空文章.两篇文章之间用空格作间隔. This is a blog about bert code reading.It is writed using markdow