tesseract3.01的训练和使用
相关源码、资源下载:http://code.google.com/p/tesseract-ocr/downloads/list
训练步骤:
1、 Generate Training Images:生成tif图像文件(简单的几个汉字);
如:ABC.Roman.exp0.tif([lang].[fontname].exp[num].tif)
2、 Make Box Files:由上tif图像文件生成box文件;由tesseract.exe生成box文件;打开生成的box文件,修改其中不正确的部分;
配置文件参数:"batch.nochop", "makebox"
运行文件:tesseractmain.cpp
如:ABC.Roman.exp0.box
3、 Run Tesseract for Training:
配置文件参数:"nobatch", "box.train"或"nobatch", "box.train.stderr"
运行文件:tesseractmain.cpp
生成的文件包括:ABC.Roman.exp0.tr 、ABC.Roman.exp0.txt
4、 Compute the Character Set:
运行文件:unicharset_extractor.cpp
生成的文件:unicharset
5、 font_properties:
需要自己创建一个txt文件,如font_properties.txt
运行文件:mftraining.cpp
生成的文件:inttemp、Microfeat、pffmtable、ABC.unicharset
6、 Clustering:
运行文件:mftraining.cpp(类似5)
运行文件:cntraining.cpp
生成的文件:normproto
7、 Dictionary Data:
需要自己创建5个txt文件,如:frequent_words_list.txt、words_list.txt、punc_list.txt、number_list.txt、user_words_list.txt
运行文件:wordlist2dawg.cpp
生成的文件:ABC.freq-dawg、ABC.word-dawg、(ABC.punc-dawg、ABC.number-dawg、ABC.user-words)
8、 The last file:
需要自己手动创建一个unicharambigs文件
9、 Putting it all together:
将normproto, Microfeat, inttemp, pffmtable四个文件重命名以ABC.为前缀,分别改为ABC.normproto, ABC.Microfeat, ABC.inttemp, ABC.pffmtable
运行文件:combine_tessdata.cpp
生成的文件:ABC.traineddata
以上的所有.cpp文件均可以根据自己的实际要求进行相应的修改。
使用:
将生成的ABC.traineddata文件拷贝到tessdata目录下,然后调用tesseractmain.cpp文件执行即可。
参考文献:
1、 http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3
2、 http://www.docin.com/p-216160535.html
3、 http://blog.wudilabs.org/entry/f25efc5f/
4、 http://blog.csdn.net/dyfleoo/article/details/6959591
5、 http://blog.csdn.net/fengbingchun/article/details/6920667
- 顶
- 2
- 踩
最新文章
- 企业站SEO记录
- nginx反向代理+缓存开启+url重写+负载均衡(带健康探测)的部署记录
- 清除Outlook 2013中缓存的邮件地址
- 【leetcode❤python】237. Delete Node in a Linked List
- python pandas/numpy
- LA 4127 - The Sky is the Limit (离散化 扫描线 几何模板)
- 64位Win7下安装并配置Python3的深度学习库:Theano
- JSON互转
- gRPC 如何使用python表示多维数组
- leetcode刷题--两数之和(简单)
- 【原创】大叔经验分享(34)hive中文注释乱码
- DAX创建带有过滤器的超链接
- .NET, ASP.NET, ADO.NET, C# 区别
- HDU 1159:Common Subsequence(LCS模板)
- Python OS模块中的fork方法实现多进程
- Nginx+redis的Asp.net
- 计蒜客 31459 - Trace - [线段树][2018ICPC徐州网络预赛G题]
- [Java学习] Java类的基本运行顺序
- SharePoint 2013的100个新功能之内容管理(四)
- Pytorch自定义数据库
热门文章
- android 自定义View Caused by: java.lang.ClassNotFoundException: Didn't find class
- 【转载】windows平台安装nodejs过程
- 模拟下载的进度条ProgressBar
- block使用小结、在arc中使用block、如何防止循环引用
- nodejs + ionic2 + cordova环境搭建
- IntelliJ IDEA 中文乱码问题解决办法
- Linux学习一:安装/配置vi,熟悉gcc/vi
- Jmeter plugin jp@gc - PerfMon Metrics Collector
- asp.net中按钮回车事件(转自http://www.cnblogs.com/adinet/archive/2013/03/03/2941424.html)
- Vagrant+virtualBox+pycham+python环境的安装及配置