使用python及工具包进行简单的验证码识别
相信大家利用 Python 写的爬虫应该遇到过要输入验证码的尴尬局面,又或者写了个自动填充表单的小程序,结果就卡在了验证码上。
在ctf中有⼀一些题⽬目,本身有弱验证码识别绕过,那么我们怎么解决呢? 这⾥里里⽤用题⽬目
http://lab1.xseclab.com/vcode7_f7947d56f22133dbc85dda4f28530268/做实例例讲解
首先[Python] 纯文本查看 复制代码
发现脚本运⾏行行报错,然后开始装tesseract-OCR 准备⼯工作: 编译环境: gcc gcc-c++ make(这个环境⼀一般机器器都具备,可以忽略略)
[Python] 纯文本查看 复制代码
依赖的包: autoconf automake libtool libjpeg-devel libpng-devel
libtiff-devel zlib-devel leptonica(1.67以上) autoconf automake libtool
libjpeg-devel libpng-devel libtiff-devel zlib-devel 可以通过yum安装:
[Python] 纯文本查看 复制代码
leptonica 需要源码编译安装参考资料料:
http://paramountideas.com/tesseract-ocr-30-and-leptonica-installation-centos-55-and-opensuse-113http://www.leptonica.org/source/README.html下载leptonica 包: http://www.leptonica.org/source/leptonica-1.68.tar.gz 解压后切换到leptonica-1.68 根⽬目录
[AppleScript] 纯文本查看 复制代码
tesseract安装:
依赖安装完毕后开始安装tesseract
下载tesseract-3.01 安装包:http://tesseract-ocr.googlecode.com/files/ tesseract-3.01.tar.gz
解压后切换到tesseract-3.01 根⽬目录
(如果在make时遇到类似strngs.h:1: error: stray ‘\357’ in program 的错误,请将
tesseract-3.01/ccutil/strngs.h
⽂文件转为ANSI 编码保存,再重新编译)
[Python] 纯文本查看 复制代码
tesseract英⽂文语⾔言包安装:
下载tesseract-3.01
英⽂文语⾔言包: http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.01.eng.tar.gz 解压后将tesseract-ocr/tessdata 下的所有⽂文件全部拷⻉贝到/usr/local/share/tessdata 下
安装完毕. 测试⼀一下: 切换到解压后的tesseract-3.01 根⽬目录(这个⽬目录下有⼀一个⾃自带的phototest.tif
可以做测试⽤用) 命令⾏行行:
[Python] 纯文本查看 复制代码
输出:
[AppleScript] 纯文本查看 复制代码
这时应该在当前⽬目录⽣生成⼀一个phototest.txt ⽂文本⽂文件,内容就是phototest.tif 显示的⽂文字. 装完了了之后开始跑脚本
运⾏,等待得到结果
最新文章
- 【Alpha阶段】第一次线上会议
- ListView实现Item上下拖动交换位置 并且实现下拉刷新 上拉加载更多
- ifarm 子 父页面方法如何互调
- Codeforces Round #261 (Div. 2) B
- java数组元素的输出
- 在LINUX上创建GIT服务器【转】
- C++和pascal之间的通信
- 查看linux服务器版本
- Android面试必备
- MYSQL ERROR 1045 (28000): Access denied for user 'neeky'@'Nee' (using password: YES)
- 扩展欧几里德算法解二元一次方程之B - 青蛙的约会
- MOS管常识
- 日期小demo
- Spring Boot快速入门(一): Hello Spring Boot
- 安卓框架——SlidingMenu使用技巧
- Mysql使用event,类似oracle job
- Mybatis Annotation使用小结
- python写测试接口
- Java基础之数据比较Integer、Short、int、short
- hashtable——散列表