论文阅读(Xiang Bai——【PAMI2017】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition)
2024-08-25 05:24:28
白翔的CRNN论文阅读
1. 论文题目
Xiang Bai——【PAMI2017】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition
2. 论文思路和方法
1) 问题范围: 单词识别
2) CNN层:使用标准CNN提取图像特征,利用Map-to-Sequence表示成特征向量;
3) RNN层:使用双向LSTM识别特征向量,得到每列特征的概率分布;
4) Transcription层:利用CTC和前向后向算法求解最优的label序列;
3. 亮点和创新点
1) 端到端可训练(把CNN和RNN联合训练)
2) 任意长度的输入(图像宽度任意,单词长度任意)
3) 训练集无需有字符的标定
4) 带字典和不带字典的库(样本)都可以使用
5) 性能好,而且模型小(参数少)
4. 相关链接
1) 白翔的个人主页:http://mc.eistar.net/~xbai/
2) 论文的下载地址:https://arxiv.org/pdf/1507.05717v1.pdf
3) 代码的下载地址:
http://mc.eistar.net/~xbai/CRNN/crnn_code.zip
5. 论文细节
1) 论文的框架
2) 特征提取层
3) 序列标定层
4) 翻译层
5) 网络训练
6) 实验
7) 总结
8) 问题
最新文章
- HTML 网页特效CSS大全
- if you end up with a boring miserable life
- 原生Android动作
- VS中查看/修改Dialog控件TAB顺序的方法
- Java方法总结与源码解析(未完待续)
- 学习练习 java 验证码练习
- POJ2891 - Strange Way to Express Integers(模线性方程组)
- poj 3171 Cleaning Shifts(区间的最小覆盖价值)
- Cortex-M3 FLASH 日志文件系统
- hdu4491 Windmill Animation (几何)
- VS2015 C#6.0
- Manacher详解
- MD5 SHA1 HMAC HMAC_SHA1区别
- 洛谷 [P1154] 奶牛分厩
- 查看MySQL 表结构
- 2018.08.30 NOIP模拟 wall(模拟)
- Linux安装软件包
- Spring容器的属性配置详解的六个专题
- hadoop1.x和2.x的一些主要区别
- maven与gradle的对比