本篇带来XL-Net和它的基础结构Transformer-XL.在讲解XL-Net之前需要先了解Transformer-XL,Transformer-XL不属于预训练模型范畴,而是Transformer的扩展版,旨在解决Transformer的捕获长距离依赖信息的上限问题.接下来我们详细的介绍Transformer-XL和XL-Net. 一,Transformer-XL 论文:TRANSFORMER-XL: LANGUAGE MODELING WITH LONGER-TERM DEPENDENC
1. 导入各种包 from mxnet import gluon import mxnet as mx from mxnet.gluon import nn from mxnet import ndarray as nd import matplotlib.pyplot as plt import cv2 from mxnet import image from mxnet import autograd 2. 导入数据 我使用cifar10这个数据集,使用gluon自带的模块下载到本地并且为了