1.Tesseract-OCR简介

 一个Google支持的开源的OCR图文识别开源项目。支持多种语言(我使用的是3.02 版本,支持包括英文,简体中文,繁体中文),支持Windows,Linux,Mac OSX 多平台。

2.Tesseract安装

下载windows版本的tesseract安装包,我下载的版本是是http://3.onj.me/tesseract/网站所维护的,安装后有个doc文件夹,里面有英文的使用文档。为了在全局使用方便,比如安装路径为D:\Application\tesseract,将D:\Application\tesseract添加到环境变量的path中。
注:
tessdata 目录存放的是语言字库文件,和在命令行界面中可能用到的参数所对应的文件. 这个安装程序默认包含了英文字库。
如果想能识别其他语言,可以到https://github.com/tesseract-ocr/tessdata下载对应的语言的字库文件。
     下载完成后将该文件剪切到tessdata目录下去就可以了。

新增环境变量TESSDATA_PREFIX,值为D:\Application\tesseract

3.Tesseract 使用

a. tesseract C:'User\ppzc\1.jpg result  默认英文
b. tesseract C:'User\ppzc\2.jpg result  -l chi_sim  指定中文
 
4.简单使用
a.使用中文
import pytesseract
from PIL import Image pytesseract.pytesseract.tesseract_cmd=r"D:\tesseract\tesseract.exe"
imgs=Image.open("1.png")
text1=pytesseract.image_to_string(imgs,lang="chi_sim")
print(text1)

b.使用默认英文

import pytesseract
from PIL import Image pytesseract.pytesseract.tesseract_cmd=r"D:\tesseract\tesseract.exe"
imgs=Image.open("2.jpg")
text1=pytesseract.image_to_string(imgs)
print(text1)

5.案例

import pytesseract
from urllib import request
from PIL import Image
import time def main():
pytesseract.pytesseract.tesseract_cmd=r'D:\tesseract\tesseract.exe'
url="https://passport.lagou.com/vcode/create?from=register&refresh=1513082291955"
while True:
request.urlretrieve(url,"1.png")
image=Image.open("1.png")
text=pytesseract.image_to_string(image)
print(text)
time.sleep(2) if __name__=="__main__":
main()

6.

最新文章

  1. 关于页面里没有id属性的Javascript上的解决办法
  2. 2016-11-10:win7下VMware虚拟机中CentOS6.5网络配置
  3. [Maven]Eclipse插件之Maven配置及问题解析.
  4. golang内存分配
  5. Windows Server 2016 桌面环境的自动配置脚本
  6. Subset sum problem
  7. Unity 异步加载场景
  8. 手机root初体验
  9. 整合微信小程序的Web API接口层的架构设计
  10. P1169 [ZJOI2007]棋盘制作 DP悬线法
  11. 一道面试题 vuex缺点?
  12. Elasticsearch 性能监控基础【转】
  13. iOS - User Agent 的应用和设置
  14. 位置式PID与增量式PID
  15. 每天一个linux命令(8):scp使用
  16. Keras 源码分析
  17. LINUX中的RCU机制的分析
  18. JavaSe 之三目运算符应用
  19. [转]MinGW编译wxWidgets问题
  20. Restful Api CRUD 标准示例 (Swagger2+validator)

热门文章

  1. [luogu3878][TJOI2010]分金币【模拟退火】
  2. debian源
  3. centos7修改默认网卡名称
  4. 20165223 week2测试补交与总结
  5. mysql 替换字符中部分字符,替换使用指定字符
  6. Python3 与 C# 并发编程之~ 线程篇
  7. 编写高质量代码:改善Java程序的151个建议 --[52~64]
  8. MongoDb 命令查询所有数据库列表
  9. docker file 示例
  10. QML学习笔记(五)— 做一个简单的待做事项列表