一.算法理解

  此处省略1万字。。。。。。。。。。。。。。

二.训练及源码理解

  配置以下3步:

  在utils文件夹和utils\bbox文件夹下创建__init__.py文件

  在utils\bbox文件夹下执行python setup.py install

  将.pyd文件拷贝到utils\bbox文件夹下

  1. 数据介绍:检测图片当中的手写体区域,图片不多自己标注了385张,但是图片中的手写体区域大约几千个,后面训练Faster Rcnn也有用到。
  2. 数据格式:首先我是用精灵标注手写体区域存在json文件中,josn解析提取图片名和标签坐标存在txt中,格式:768,1622,1124,1622,1124,1750,768,1750,chinese,###。
  3. 总共4个角8个坐标,还有一个标签,全部用的chinese,然后用split_label.py将数据拆分成一个个小框,格式:188,399,191,430只有左上角和右下角坐标。将数据image文件夹和label文件夹(拆分后的数据标签)存放在mlt文件夹里即可。
  4. main/trian.py即可训练核心代码:
    bbox_pred, cls_pred, cls_prob = model.model(input_image)  生成预测框,类别得分和概率
    lstm_output = Bilstm(rpn_conv, 512, 128, 512, scope_name='BiLSTM') 双层LSTM,考虑前后特征的联系
    bbox_pred = lstm_fc(lstm_output, 512, 10 * 4, scope_name="bbox_pred") 
    cls_pred = lstm_fc(lstm_output, 512, 10 * 2, scope_name="cls_pred") 全连接分类得分和候选框预测
    total_loss, model_loss, rpn_cross_entropy, rpn_loss_box = model.loss(bbox_pred, cls_pred, input_bbox,
    input_im_info) 模型的各种损失,交叉熵损失,rpn损失
  5. demo.py进行预测,包括小框合并,预测结果展示如下

最新文章

  1. SQL 常用函数
  2. WebSocket connection to,Error during WebSocket handshake: Unexpected response code: 404
  3. $.data(data , "")
  4. DIRECTORY_SEPARATOR:PHP 系统分隔符常量
  5. 基于XMPP协议的Android即时通信系
  6. C++ 迭代器模式实现
  7. BZOJ2693: jzptab
  8. C# Winform程序请求管理员权限
  9. 将Oracle JDBC驱动库安装到本地仓库
  10. uploadify 在chrome上崩溃的解决办法
  11. CSS3笔记之第三天
  12. TOMCAT闪退。cmd执行startup.bat保错:the CATALINA_HOME environment variable is not defined correctly
  13. noi 2016 游记
  14. Java 高级框架——Mybatis(一)
  15. 每天一个linux命令(02):route命令
  16. Spring Boot 启动:No active profile set, falling back to default profiles: default
  17. redis服务部署脚本
  18. Struts2将图片输出到页面
  19. Floyd最短路径算法(来自微信公众号“算法爱好者”改编)
  20. hdu 5033 模拟+单调优化

热门文章

  1. 【CSS3】使用CSS3制作全屏切换效果
  2. 立足GitHub学编程:13个不容错过的Java项目
  3. Flex AIR应用GPS定位功能(Android和IOS)
  4. 读取Flex AIR应用程序设置
  5. [转]Spring 注解大全与详解
  6. [转]在eclipse中,用maven创建一个web项目工程
  7. jps简介
  8. 高可用之nginx配置文件详解
  9. .gitkeep常用写法
  10. 【js】vue 2.5.1 源码学习 (三) Vue.extend 和 data的合并策略