与此问题斗争了整整十天。win10,keras2.4.3,CUDA 10.1,CUDNN 7.6, tensorflow 2.3.0,驱动程序nvida 452

该问题出现在BiLSTM(GPU加速)的快速运算过程中,但凡在BiLSTM的后端添加任何层,处理百万数据时,往往训练几个epoch,甚至是几十个batch就会崩溃。

期间试过了无数的方法。包括、

1)误认为是显存问题

2)分批加载至内存,清空,重新model

3)降低keras版本,一个版本一个版本试错,从2.4.3降到2.3.0,成功了。但是运行速度特别慢。

4)不用keras的BiLSTM,重新写BiLSTM。

但是都没用。最后怀着无比绝望的心情,看到了tensorflow上的一个open bug标志。

当时,我认为,这个问题解决不了了。有猴子评论说,坐等keras支持更高级的CUDA。我也信了。因为Keras最新只支持CUDA 10.1和CUDNN7.6。

还好自己一直关注这个问题,终于在网址https://github.com/tensorflow/tensorflow/issues/37942中寻找到了一个被close的同一问题。、

里面一个网友,轻描淡写的写了一句,卸了驱动,装431。

我就抱着最后一丝希望试了试。还真成功了。。

这说明软件的缺陷,指派给了不同的管理员,解决方式是完全不一样,信息不对等,人也不是全能,全知。

tensorflow的管理员有多个,面对不同人汇报的同一问题,一个open了,一个close了。然后两个问题的描述也不一致。一个叫BiLSTM问题,另外一个叫Failed to call ThenRnnForward with model config。

正好我做的相似缺陷报告检测就是分析不同缺陷报告之间的文本差异,回答“不同缺陷报告是否属于同一缺陷”。自己的研究,也被自己撞上了。。。

通过搜索该版本驱动。重新安装整个过程。

最后会遇到以前运行模型经常遇到的BLAS问题,对,我叫不拉屎问题。程序不拉屎。

看到不拉屎问题,而不是 Failed to call ThenRnnForward with model config问题,我就释然了。

不拉屎问题添加如下代码即可:

最新文章

  1. MySQL自定义函数
  2. Oracle中"行转列"的实现方式
  3. C# Math
  4. C语言实现词频统计——第二版
  5. C语言中char* 和 char []区别
  6. java实现DES算法
  7. Ehcache - hello world
  8. ArcMap - 分割.
  9. c++编程思想(四)--对象和隐藏(感觉书上有误)
  10. 通过history解决ajax不支持前进/后退/刷新
  11. [Swift]LeetCode638. 大礼包 | Shopping Offers
  12. 理解R语言gdistance包下的transition函数
  13. AS添加依赖报错Unable to merge dex
  14. 微信小程序心得
  15. Linux用户、用户组、文件权限学习笔记
  16. feign接口调用异常的解决方向
  17. react项目的react-router-dom路由的使用
  18. python monkey 猴子补丁技术编程,修改python json dumps方法。
  19. Balls and Boxes---hdu5810(推公式)
  20. 江苏公务员职位表导入MySQL

热门文章

  1. B/S与C/S架构的区别
  2. Linux中编写Shell脚本
  3. Supervisord远程命令执行漏洞(CVE-2017-11610)
  4. [LeetCode每日一题]1143. 最长公共子序列
  5. 在AWS Glue中使用Apache Hudi
  6. 通过Dapr实现一个简单的基于.net的微服务电商系统(十)——一步一步教你如何撸Dapr之绑定
  7. 剖析XAML语言
  8. Linux Limit相关内容设置大全(值得收藏)
  9. Codeforces Round #692 (Div. 2, based on Technocup 2021 Elimination Round 3)
  10. (四)Jira Api对接:缺陷分析和任务分析