Tesseract 是一个开源的 OCR 引擎,可以识别多种格式的图像文件并将其转换成文本,最初由 HP 公司开发,后来由 Google 维护。下载地址:https://digi.bib.uni-mannheim.de/tesseract/

其中文件名中带有 dev 的为开发版本,不带 dev 的为稳定版本。

安装时可以添加支持的语言包,如下界面最后一个选项点开选择,我们可以选择简体中文 Chiness(Simplified)。

安装完成后还需要将安装路径添加至环境变量。

打开 cmd,输入命令 tesseract -v,看到输出版本信息即代表安装成功。

识别命令:tesseract 图片路径 结果文件名 -l 语言

1、将 cmd 切换到图片所在路径,则可以只输入图片名,否则需要全路径

2、结果文件名不可以加后缀,必定会自动加 .txt 后缀,如果结果文件名写 a.txt,则最后输出的文件名为 a.txt.txt。

3、-l 是英文字母L,不是数字1,language的意思。

4、语言英文为 eng,简体中文为 chi_sim

截了个谷歌的图片来测试

输入命令:tesseract 1.png a -l eng,结果如下,识别正确

我们尝试用简体中文试试

识别就有误了。

中文的识别可以另外截图试试,只是正确率并不高。

我 tesseract 是安装在 C 盘的,在 C 盘运行命令识别没问题,但在 D 盘打开 cmd 运行命令就报错了:

Error opening data file ….

Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your “tessdata” directory.

Failed loading language ‘eng’

Teseract couldn’t load any languages!

Counld not initialize tesseract

意思就是要将 tessdata 的父文件夹路径设置为名为 TESSDATA_PREFIX 的环境变量值。设置完成之后需要重启电脑,否则依然报错。

转自:https://www.cnblogs.com/gl1573/p/9876397.html

最新文章

  1. Python Numpy,Pandas基础笔记
  2. Session的使用过程中应注意的一个小问题
  3. d3安装异常
  4. 【Networking】容器网络大观 && SDN 资料汇总
  5. route netstat -rn
  6. [原创]java WEB学习笔记101:Spring学习---Spring Bean配置:IOC容器中bean的声明周期,Bean 后置处理器
  7. ajax 开始的loading加载
  8. iOS 定位精度
  9. placeholder在不同浏览器下的表现及兼容方法(转)
  10. android 设置gridView item的高度
  11. js常用正则表达式汇总
  12. 详解Spring
  13. 终于有人把O2O、C2C、B2B、B2C的区别讲透了!
  14. Docker实战--部署简单nodejs应用
  15. (16)IO流之输入字节流FileInputStream和输出字节流FielOutputStream
  16. NHibernate教程(21)——二级缓存(下)
  17. Mysql的基本命令图
  18. linux云服务器常用设置
  19. 从Linux上传到Git过程
  20. IO流总结笔记二

热门文章

  1. SHELL用法九(awk练习)
  2. Java IO: ByteArray和Filter
  3. .net和JAVA面向对象,继承有趣的细节
  4. Windows Server 2008 配置 PHP 环境
  5. [洛谷P4556] 雨天的尾巴
  6. Python爬虫实战之爬取百度贴吧帖子
  7. Java volatile修饰字段
  8. 关于Docker清理
  9. Problem 43 // Project Euler
  10. CentOS卸载旧版本内核