CTPN训练自己的数据集过程大白话记录
2024-10-20 11:53:40
一.算法理解
此处省略1万字。。。。。。。。。。。。。。
二.训练及源码理解
配置以下3步:
在utils文件夹和utils\bbox文件夹下创建__init__.py文件
在utils\bbox文件夹下执行python setup.py install
将.pyd文件拷贝到utils\bbox文件夹下
- 数据介绍:检测图片当中的手写体区域,图片不多自己标注了385张,但是图片中的手写体区域大约几千个,后面训练Faster Rcnn也有用到。
- 数据格式:首先我是用精灵标注手写体区域存在json文件中,josn解析提取图片名和标签坐标存在txt中,格式:768,1622,1124,1622,1124,1750,768,1750,chinese,###。
- 总共4个角8个坐标,还有一个标签,全部用的chinese,然后用split_label.py将数据拆分成一个个小框,格式:188,399,191,430只有左上角和右下角坐标。将数据image文件夹和label文件夹(拆分后的数据标签)存放在mlt文件夹里即可。
- main/trian.py即可训练核心代码:
bbox_pred, cls_pred, cls_prob = model.model(input_image) 生成预测框,类别得分和概率
lstm_output = Bilstm(rpn_conv, 512, 128, 512, scope_name='BiLSTM') 双层LSTM,考虑前后特征的联系
bbox_pred = lstm_fc(lstm_output, 512, 10 * 4, scope_name="bbox_pred")
cls_pred = lstm_fc(lstm_output, 512, 10 * 2, scope_name="cls_pred") 全连接分类得分和候选框预测total_loss, model_loss, rpn_cross_entropy, rpn_loss_box = model.loss(bbox_pred, cls_pred, input_bbox,
input_im_info) 模型的各种损失,交叉熵损失,rpn损失 - demo.py进行预测,包括小框合并,预测结果展示如下
最新文章
- SQL 常用函数
- WebSocket connection to,Error during WebSocket handshake: Unexpected response code: 404
- $.data(data , ";";)
- DIRECTORY_SEPARATOR:PHP 系统分隔符常量
- 基于XMPP协议的Android即时通信系
- C++ 迭代器模式实现
- BZOJ2693: jzptab
- C# Winform程序请求管理员权限
- 将Oracle JDBC驱动库安装到本地仓库
- uploadify 在chrome上崩溃的解决办法
- CSS3笔记之第三天
- TOMCAT闪退。cmd执行startup.bat保错:the CATALINA_HOME environment variable is not defined correctly
- noi 2016 游记
- Java 高级框架——Mybatis(一)
- 每天一个linux命令(02):route命令
- Spring Boot 启动:No active profile set, falling back to default profiles: default
- redis服务部署脚本
- Struts2将图片输出到页面
- Floyd最短路径算法(来自微信公众号“算法爱好者”改编)
- hdu 5033 模拟+单调优化