bert一些思考
2024-09-08 17:59:44
bert结构
首先是embdding lookup,【batch * seq】-->[batch, seq, hidden]
然后是加个mask embdding和type embdding和postion embdding作为最终
然后到transformers,transformers是24层的self attention + dense(intermediate,layer_norm, residual)
再看attention_layer
首先是query,key,value都是当前的term,先做一个线性变换,到
最新文章
- 使用InstallAnywhere工具打包Java_Web程序
- C#线程池使用
- 万能面试问题大全,教你怎么回答,怎么拿下offer
- 【CodeVS】1993草地排水
- [C] zlstdint(让VC、TC等编译器自动兼容C99的整数类型)V1.0。支持Turbo C++ 3等DOS下的编译器
- Android LayoutInflater.from(context).inflate
- hdu 3572 Task Schedule
- c#使用spy进行模拟操作
- struts2在result中使用el表达式碰到的问题
- 在Qt中使用ActiveX控件
- 调整CentOS的文字登陆界面的分辨率
- Android应用程序组件介绍
- js 、jq强化复习
- 应用负载均衡之LVS(三):使用ipvsadm以及详细分析VS/DR模式
- Java7里try-with-resources分析
- Linux常用命令之帮助和用户管理命令
- c++11 并发 条件变量 超时等待的代码练习
- Apache2.2和Apache2.4中httpd.conf配置文件 权限的异同
- $digest already in progress 解决办法——续
- 类继承-super, 私有变量