将图像翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR)

OCR库:Pillow、Tesseract、NumPy

Pillow

Pillow可以对图片进行预处理,比如图片背景色不是纯白,而是渐进色,那么就可以利用Pillow进行预处理得到相对清晰的图片来提供给Tesseract去识别。

Tesseract

Tesseract可以通过训练识别出任何字体(要求字体风格保持不变)

安装Tesseract

Tesseract不是python的库,所以不是通过import的方式导入,而是需要去下载安装,截至目前最新版本是 3.02.02。下载地址

简体中文字库文件下载地址为:http://download.csdn.net/detail/wanghui2008123/7621567

下载完成后解压,然后将该文件剪切到tessdata目录下去就可以了。字库文件:chi_sim.traineddata

Tesseract默认安装在C盘,默认安装是不是会自动添加环境变量,我没试。

我是安装在F盘  F:\Program Files\Tesseract-OCR。安装成功后,再去设置一下环境变量,把安装的路劲加到环境变量里就好了,或者执行指令:

#setx TESSDATA_PREFIX F:\Program Files\Tesseract OCR\

安装的步骤我就不赘述了,安装的过程中出现失败的情况,没有关系,继续就OK。

接着去CMD指令界面中输入:C:\Users\Administrator>tesseract

如果出现下面的结果,那就是安装成功了!

为了验证下是否能识别成功,我在D盘根目录下放了一张图片

然后在cmd指令界面中输入如下指令:

C:\Users\Administrator>tesseract e:\img.jpg e:\img -l chi_sim

结果:(img默认是txt格式)

泪崩~

这识别是个什么几把玩意啊???不管识别的怎么样,人家也是识别了一部分不是?

NumPy

NumPy 并非解决OCR 问题时必须使用的库,但是如果你想训练Tesseract 识别,那么就会用到它。NumPy 是一个非常强大的库,具有大量线性代数以及大规模科学计算的方法。

最新文章

  1. mac 之 jmeter下载、解压、启动
  2. c++多线程の数据竞争和互斥对象
  3. Java自动装箱拆箱
  4. Java构造器和方法的区别
  5. Nginx端口的修改
  6. 刑事案件的构成要素 zt
  7. SQL Server 2012的附件失败,与硬链接的问题
  8. wemall app商城源码机器人检测
  9. fileInput实战总结
  10. 为bookStore添加权限【动态代理和注解】
  11. Flink中的Time
  12. sql 查询所有子节点示例
  13. 移动端iscroll实现日期选择
  14. FastDFS 配置 Nginx 模块,并实现分布式同步-Linux
  15. angular 路由动态加载JS文件
  16. 使用 Php Artisan Tinker 来调试你的 Laravel
  17. 【敏捷实用工具】JIRA介绍以及使用方法
  18. Flutter - 弹出底部菜单Show Modal Bottom Sheet
  19. GodMode | Windows上帝模式
  20. linux下强行umount卸载设备

热门文章

  1. Ajax请求如何设置csrf_token
  2. scrapy框架之items项目
  3. 【做题记录】Codeforces做题记录
  4. 求N个集合的并集
  5. Add hyperlink to textblock wpf
  6. Heat map 绘图神奇
  7. Java同步数据结构之PriorityBlockingQueue
  8. Android 显示系统:SurfaceFlinger详解
  9. Salesforce LWC学习(九) Quick Action in LWC
  10. JAVA 基础编程练习题48 【程序 48 加密】