OCR1:开源库
OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。优秀的开源OCR软件包括:
- Tesseract:原本由惠普开发的图像识别类库tesseract-ocr已经更新到2.04, 就是最近Google支持的那个OCR。原先是惠普写的,现在Open source了。
- OCRopus:Ocropus的(TM)是一个先进的文件分析和OCR系统,采用可插入的布局分析,可插入的字符识别,自然语言统计建模和多语言支持功能。
- Cuneiform:Cuneiform 是一个 OCR 文字识别系统的商标,最开始是由Cognitive 技术所开发的运行在 Windows 下的软件。而这个项目是该软件在 Linux 系统下的移植版本。
- GOCR:GOCR 是一个开源的OCR光学识别程序。
- OCRFeeder:OCRFeeder 是 GNOME 桌面下的一个开源 OCR 套件。可将纸质或者图形文档转成电子文档。
- Lios:linux-intelligent-ocr-solution (Lios) 是Linux下一个开源的 OCR 解决方案,可将打印的文档转成可编辑的文本。
云服务商提供服务:
- 百度OCR: https://cloud.baidu.com/doc/OCR/OCR-Python-SDK.html
- Azure图像识别:https://azure.microsoft.com/zh-cn/services/cognitive-services/computer-vision/
- 阿里云OCR: https://www.aliyun.com/product/cdi/
- 腾讯OCR:https://cloud.tencent.com/product/ocr
OpenCV VS tesseract:
- opencv:专注机器视觉
- tesseract:专注字符识别
由于tesserocr在windows环境下会出现各种不兼容问题,并且与pycharm虚拟环境不兼容等问题,所以在windows系统环境下,选择pytesseract模块进行安装
Tesseract
Tesserocr 是Python的一个OCR库,但其实是对tesseract做的一层Python API的封装,所以他的核心是tesseract。因此,在安装tesserocr之前,我们需要先安装tesseract。 实际使用tesseract ocr也有两种方式:1- 动态库方式 libtesseract 2 - 执行程序方式 tesseract.exe
安装过程:
- 在Windows下,首选需要下载tesseract,它为tesserocr提供支持,在“https://digi.bib.uni-mannheim.de/tesseract/” ,然后选择3.05.02版本进行下载。其中文件名中带有 dev 的为开发版本,不带 dev 的为稳定版本,可以选择下载不带 dev 的版本,例如可以选择下载tesseract-ocr-setup-3.05.02-20180621.exe
- 如果不是做英文的图文识别,还需要下载其他语言的识别包 https://github.com/tesseract-ocr/tessdata下载
安装Tesseract
- 下载Tesseract-OCR引擎,注意要3.0以上才支持中文哦,按照提示安装就行。
- 既然是要训练中文,记得勾选 additional language data,如下图:
找到中文简体和中文繁体,按需勾选,然后点下一步。可以先不勾选,因为这样直接下载语言的包实在太慢。可以从网页上直接下载语言包,然后等程序安装好后,放入安装目录下tessdata目录下面,如下图:
配置:
- 在环境变量的系统变量和个人用户的PATH,把tesseract-ocr的安装路径(如 C:\Program Files (x86)\Tesseract-OCR;)添加进去
- 在windows系统你还需要将testdata目录也加入环境变量,TESSDATA_PREFIX=C:\Program Files (x86)\Tesseract-OCR\tessdata
验证安装:
- 打开命令终端,输入:tesseract -v,可以看到版本信息
落地验证:
- 直接下载:https://raw.githubusercontent.com/Python3WebSpider/Testtess/master/image.png 然后,将图片下载下来并保存为image.png,然后使用tesseract命令进行测试
- 命令:tesseract image.png 1 (image.png 代表待识别的源文件,1代表输出文件名,默认输出格式是txt文件格式!)
python用tesseract-ocr做图像识别
需要导入两个库,这是别人写好的封装好的库文件。
- 需要用到两个库:pytesseract和PIL
- 还需要安装识别引擎tesseract-ocr
Python-tesseract: 是Tesseract OCR引擎的Python封装类。能够读取任何常规的图片文件(JPG, GIF ,PNG , TIFF等)并解码成可读的语言。在OCR处理期间不会创建任何临文件
PIL (Python Imaging Library):是 Python 中最常用的图像处理库。
python对图像的处理比较常见的是用 pytesseract 识别验证码,要安装pytesseract库,必须先安装其依赖的 PIL 及 tesseract-ocr,其中PIL为图像处理库,而后面的tesseract-ocr则为google的ocr识别引擎。
- 命令:pip install pillow 目前PIL的官方最新版本为1.1.7,支持的版本为python 2.5, 2.6, 2.7,并不支持python3,经查询python3.X用pillow代替,进入DOS命令行窗口,敲入以下代码
- 命令:pip install pytesseract
示例代码:
import pytesseract
from PIL import Image as img text = pytesseract.image_to_string(img.open('image.png'))
print(text)
示例结果:
带中文图片示例(示例图片是从百度图片上下载的):
中文效果并不理想,下一节介绍训练过程
相关链接:
- tesserocr GitHub: https://github.com/sirfz/tesserocr
- tesserocr PyPI: https://pypi.python.org/pypi/tesserocr
- tesseract 下载地址: https://digi.bib.uni-mannheim.de/tesseract/
- tesseract GitHub : https://github.com/tesseract-ocr/tesseract
- tesseract 语言包 : https://github.com/tesseract-ocr/tessdata
- tesseract 文档 : https://github.com/tesseract-ocr/tesseract/wiki/Documentation
参考资料:
- https://www.itcodemonkey.com/article/4516.html
- https://www.oschina.net/news/40027/6-opensource-ocr-tools
- https://testerhome.com/topics/16305
- https://www.cnblogs.com/wj-1314/p/9428909.html
- https://segmentfault.com/a/1190000012861561
最新文章
- 代码的坏味道(13)——过多的注释(Comments)
- 第2章 C#中的泛型
- openstack(liberty): devstack之stack.sh分析
- WaitForSingleObject与WaitForMultipleObjects用法详解(好用,而且进入一个非常高效沉睡状态,只占用极少的CPU时间片)
- HDU 2084 数塔
- git 创建一个新分支,并将一个分支内容复制给创建的新分支
- EasyUI datetimebox设置默认值为当前时间
- jexus 启动失败 原因定位
- C++使用Json作为数据包装格式的通信
- Vim+Taglist+Ctags(源码阅读).
- 45个非常有用的 Oracle 查询语句小结
- 亲测VS2010纯静态编译QT4.8.0,实现VS2010编译调试Qt程序,QtCreator静态发布程序(图文并茂,非常详细)
- Ubuntu 14.04.4 下 scp 远程拷贝提示:Permission denied, please try again. 的解决办法
- 豹哥嵌入式讲堂:ARM开发中有用的文件(1)- source文件
- Codeforces Round #415 (Div. 2)(A,暴力,B,贪心,排序)
- 1.7Oob 静态成员
- git log 查看提交记录,参数:
- SQL——sql年龄段查询
- windows下如何查看端口,关闭端口,开启端口
- 更好的转换规则(深入理解c#)