整理自:

https://blog.csdn.net/woaidapaopao/article/details/77806273?locationnum=9&fps=1

  • 原理
  • RNN、LSTM、GRU区别
  • LSTM防止梯度弥散和爆炸
  • 引出word2vec

1.原理

在普通的全连接网络或CNN中,每层神经元的信号只能向上一层传播,样本的处理在各个时刻独立,因此又被成为前向神经网络(Feed-forward+Neural+Networks)。而在RNN中,神经元的输出可以在下一个时间戳直接作用到自身,即第i层神经元在m时刻的输入,除了(i-1)层神经元在该时刻的输出外,还包括其自身在(m-1)时刻的输出。所以叫循环神经网络


2.RNN、LSTM、GRU区别

    • RNN引入了循环的概念,但是在实际过程中却出现了初始信息随时间消失的问题,即长期依赖(Long-Term Dependencies)问题,所以引入了LSTM。
    • LSTM:因为LSTM有进有出且当前的cell informaton是通过input gate控制之后叠加的,RNN是叠乘,因此LSTM可以防止梯度消失或者爆炸。推导forget gate,input gate,cell state, hidden information等因为LSTM有进有出且当前的cell informaton是通过input gate控制之后叠加的,RNN是叠乘,因此LSTM可以防止梯度消失或者爆炸的变化是关键,下图非常明确适合记忆: 
    • GRU是LSTM的变体,将忘记门和输入们合成了一个单一的更新门。 

3. LSTM防止梯度弥散和爆炸

LSTM用加和的方式取代了乘积,使得很难出现梯度弥散。但是相应的更大的几率会出现梯度爆炸,但是可以通过给梯度加门限解决这一问题。


4.引出word2vec

这个也就是Word Embedding,是一种高效的从原始语料中学习字词空间向量的预测模型。分为CBOW(Continous Bag of Words)和Skip-Gram两种形式。其中CBOW是从原始语句推测目标词汇,而Skip-Gram相反。CBOW可以用于小语料库,Skip-Gram用于大语料库。

最新文章

  1. laravel框架中容器类简化代码-摘自某书
  2. TableView分割线从顶端开始
  3. Maven私有仓库搭建和使用
  4. 如何知道使用的是哪种shell?
  5. 《Linux内核分析》第六周 读书笔记
  6. App软件开发的完整在线流程(一看就懂)
  7. 实现Android4.4系统设置分页滑动浏览功能
  8. 【转】关于.net framework4.0以及4.5安装失败,“安装时发生严重错误”……
  9. new,delete和malloc,free以及allocator<T>
  10. 常用到的Mysql语句
  11. acdream1116 Gao the string!(扩展KMP)
  12. XCODE6 提交至 App Store
  13. OD: Memory Attach Technology - Exception
  14. CentOS 七 vs CentOS 6的不同
  15. Windows Server 2016-Windows Server Backup功能
  16. kafka集群扩容后的topic分区迁移
  17. Linux服务-samba
  18. [ext]form.submit()相关说明
  19. Bzoj2721 [Violet]樱花(筛法)
  20. 部署 LAMP (CentOS 7.2),摘自阿里云,方便查看使用

热门文章

  1. SQLServer —— datediff 函数计算俩个日期差
  2. Django1.11使用命令makemigrations提示No Changes
  3. Same Tree 深度优先
  4. hdu5441 并查集 长春网赛
  5. MaxCompute 图计算用户手册(下)
  6. IMEI校验思路及代码
  7. 手写call,bind,apply
  8. 2017 ACM-ICPC 亚洲区(乌鲁木齐赛区)网络赛 H Skiing【拓扑排序,关键路径】
  9. SDUT-2119_数据结构实验之链表四:有序链表的归并
  10. Microsoft.SQL.Server2012.Performance.Tuning.Cookbook学习笔记(二)