训练maskrcnn时,出现了

failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected

一开始以为是自己没有把cuda安装好,在排查安装问题,发现没有问题后重启电脑,运行

import tensorflow as tf
sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))

这个是测试代码,可以查看GPU是否能正常运行

重启电脑后的第一次GPU是可以正常运行的,说明GPU的配置是没有问题的

但是当再一次运行要调用GPU的程序时,会报错

 failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected

这就有点奇怪了,刚开始以为是程序停止了但GPU还被占用,于是用nvidia-smi查看了一下,发现报错

 Unable to determine the device handle for GPU 0000:01:00.0: GPU is lost.  Reboot the system to recover this GPU
GPU已经丢失了。。。需要重启。。。重启之后GPU又可以使用,但用GPU一次以后又会出现该问题
经过百度和google发现大概是因为显存占用过高,导致GPU 离线,通过降低batch_size可能可以解决问题。可以考虑从减少训练过程显存占用这个方面入手,修改部分模型训练参数,有待实验

至此问题并未解决,从根本解决问题后会及时更新

最新文章

  1. 史上最详细git教程
  2. Turing Tree_线段树&树状数组
  3. 【转】提高VR渲染速度的最好方法(经典转载)
  4. 《TCP/IP 详解 卷一》读书笔记-----Ping&Traceroute
  5. ios ASIHttpLib 同步请求和异步请求
  6. 大数据时代下的用户洞察:用户画像建立(ppt版)
  7. Windows Azure 的磁盘管理相关概念
  8. openSource clouds
  9. mysql数据备份和还原命令
  10. android jar 第三方包
  11. Gson使用初探
  12. c语言中重要函数
  13. 【课程分享】基于plusgantt的项目管理系统实战开发(Spring3+JDBC+RMI的架构、自己定义工作流)
  14. Java综合题目
  15. switch处理多分支结构
  16. 设计一个有getMin功能的栈(1)
  17. HDU--2018
  18. hdu多校1002 Balanced Sequence
  19. PetaPoco与MySQL
  20. jquery序列化from表单使用ajax提交返回json数据(使用struts2注解result type = json)

热门文章

  1. opencv学习之路(32)、角点检测
  2. webpack的常识概念
  3. Thuwc 2019 & wc 2019 划水记
  4. Python各种图像库的图像的基本读写方式
  5. EvansClassification
  6. office 2019 下载地址
  7. 记一次VM虚拟机Ubuntu无法联网问题
  8. Maven pom详解
  9. python2和python3的range(100)的区别
  10. JDK内置工具使用