相关源码、资源下载:http://code.google.com/p/tesseract-ocr/downloads/list

训练步骤:

1、  Generate Training Images:生成tif图像文件(简单的几个汉字);

如:ABC.Roman.exp0.tif([lang].[fontname].exp[num].tif)

2、  Make Box Files:由上tif图像文件生成box文件;由tesseract.exe生成box文件;打开生成的box文件,修改其中不正确的部分;

配置文件参数:"batch.nochop", "makebox"

运行文件:tesseractmain.cpp

如:ABC.Roman.exp0.box

3、  Run Tesseract for Training:

配置文件参数:"nobatch", "box.train"或"nobatch", "box.train.stderr"

运行文件:tesseractmain.cpp

生成的文件包括:ABC.Roman.exp0.tr 、ABC.Roman.exp0.txt

4、  Compute the Character Set:

运行文件:unicharset_extractor.cpp

生成的文件:unicharset

5、  font_properties:

需要自己创建一个txt文件,如font_properties.txt

运行文件:mftraining.cpp

生成的文件:inttemp、Microfeat、pffmtable、ABC.unicharset

6、  Clustering:

运行文件:mftraining.cpp(类似5)

运行文件:cntraining.cpp

生成的文件:normproto

7、  Dictionary Data:

需要自己创建5个txt文件,如:frequent_words_list.txt、words_list.txt、punc_list.txt、number_list.txt、user_words_list.txt

运行文件:wordlist2dawg.cpp

生成的文件:ABC.freq-dawg、ABC.word-dawg、(ABC.punc-dawg、ABC.number-dawg、ABC.user-words)

8、  The last file:

需要自己手动创建一个unicharambigs文件

9、  Putting it all together:

将normproto, Microfeat, inttemp, pffmtable四个文件重命名以ABC.为前缀,分别改为ABC.normproto, ABC.Microfeat, ABC.inttemp, ABC.pffmtable

运行文件:combine_tessdata.cpp

生成的文件:ABC.traineddata

以上的所有.cpp文件均可以根据自己的实际要求进行相应的修改。

使用:

将生成的ABC.traineddata文件拷贝到tessdata目录下,然后调用tesseractmain.cpp文件执行即可。

参考文献:

1、  http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

2、  http://www.docin.com/p-216160535.html

3、  http://blog.wudilabs.org/entry/f25efc5f/

4、  http://blog.csdn.net/dyfleoo/article/details/6959591

5、  http://blog.csdn.net/fengbingchun/article/details/6920667

6、http://code.google.com/p/tesseract-ocr/wiki/ReadMe

 
2

最新文章

  1. 企业站SEO记录
  2. nginx反向代理+缓存开启+url重写+负载均衡(带健康探测)的部署记录
  3. 清除Outlook 2013中缓存的邮件地址
  4. 【leetcode❤python】237. Delete Node in a Linked List
  5. python pandas/numpy
  6. LA 4127 - The Sky is the Limit (离散化 扫描线 几何模板)
  7. 64位Win7下安装并配置Python3的深度学习库:Theano
  8. JSON互转
  9. gRPC 如何使用python表示多维数组
  10. leetcode刷题--两数之和(简单)
  11. 【原创】大叔经验分享(34)hive中文注释乱码
  12. DAX创建带有过滤器的超链接
  13. .NET, ASP.NET, ADO.NET, C# 区别
  14. HDU 1159:Common Subsequence(LCS模板)
  15. Python OS模块中的fork方法实现多进程
  16. Nginx+redis的Asp.net
  17. 计蒜客 31459 - Trace - [线段树][2018ICPC徐州网络预赛G题]
  18. [Java学习] Java类的基本运行顺序
  19. SharePoint 2013的100个新功能之内容管理(四)
  20. Pytorch自定义数据库

热门文章

  1. android 自定义View Caused by: java.lang.ClassNotFoundException: Didn't find class
  2. 【转载】windows平台安装nodejs过程
  3. 模拟下载的进度条ProgressBar
  4. block使用小结、在arc中使用block、如何防止循环引用
  5. nodejs + ionic2 + cordova环境搭建
  6. IntelliJ IDEA 中文乱码问题解决办法
  7. Linux学习一:安装/配置vi,熟悉gcc/vi
  8. Jmeter plugin jp@gc - PerfMon Metrics Collector
  9. asp.net中按钮回车事件(转自http://www.cnblogs.com/adinet/archive/2013/03/03/2941424.html)
  10. Vagrant+virtualBox+pycham+python环境的安装及配置