转载:@小五义http://www.cnblogs.com/xiaowuyi

用python加“验证码”为关键词在baidu里搜一下,可以找到很多关于验证码识别的文章。我大体看了一下,主要方法有几类:一类是通过对图片进行处理,然后利用字库特征匹配的方法,一类是图片处理后建立字符对应字典,还有一类是直接利用ocr模块进行识别。不管是用什么方法,都需要首先对图片进行处理,于是试着对下面的验证码进行分析。
        一、图片处理

这个验证码中主要的影响因素是中间的曲线,首先考虑去掉图片中的曲线。考虑了两种算法:
        第一种是首先取到曲线头的位置,即x=0时,黑点的位置。然后向后移动x的取值,观察每个x下黑点的位置,判断前后两个相邻黑点之间的距离,如果距离在一定范围内,可以基本判断该点是曲线上的点,最后将曲线上的点全部绘成白色。试了一下这种方法,结果得到的图片效果很一般,曲线不能完全去除,而且容量将字符的线条去除。
        第二种考虑用单位面积内点的密度来进行计算。于是首先计算单位面积内点的个数,将单位面积内点个数少于某一指定数的面积去除,剩余的部分基本上就是验证码字符的部分。本例中,为了便于操作,取了5*5做为单位范围,并调整单位面积内点的标准密度为11。处理后的效果:

二、字符验证
        这里我使用的方法是利用pytesser进行ocr识别,但由于这类验证码字符的不规则性,使得验证结果的准确性并不是很高。具体哪位大牛,有什么好的办法,希望能给指点一下。
        三、准备工作与代码实例
        1、PIL、pytesser、tesseract
        (1)安装PIL:下载地址:http://www.pythonware.com/products/pil/
        (2)pytesser:下载地址:http://code.google.com/p/pytesser/,下载解压后直接放在代码相同的文件夹下,即可使用。
        (3)Tesseract OCR engine下载:http://code.google.com/p/tesseract-ocr/,下载后解压,找到tessdata文件夹,用其替换掉pytesser解压后的tessdata文件夹即可。
        2、具体代码

#encoding=utf-8
###利用点的密度计算
import Image,ImageEnhance,ImageFilter,ImageDraw
import sys
from pytesser import *
#计算范围内点的个数
def numpoint(im):
w,h = im.size
data = list( im.getdata() )
mumpoint=0
for x in range(w):
for y in range(h):
if data[ y*w + x ] !=255:#255是白色
mumpoint+=1
return mumpoint #计算5*5范围内点的密度
def pointmidu(im):
w,h = im.size
p=[]
for y in range(0,h,5):
for x in range(0,w,5):
box = (x,y, x+5,y+5)
im1=im.crop(box)
a=numpoint(im1)
if a<11:##如果5*5范围内小于11个点,那么将该部分全部换为白色。
for i in range(x,x+5):
for j in range(y,y+5):
im.putpixel((i,j), 255)
im.save(r'img.jpg') def ocrend():##识别
image_name = "img.jpg"
im = Image.open(image_name)
im = im.filter(ImageFilter.MedianFilter())
enhancer = ImageEnhance.Contrast(im)
im = enhancer.enhance(2)
im = im.convert('1')
im.save("1.tif")
print image_file_to_string('1.tif') if __name__=='__main__':
image_name = "1.png"
im = Image.open(image_name)
im = im.filter(ImageFilter.DETAIL)
im = im.filter(ImageFilter.MedianFilter()) enhancer = ImageEnhance.Contrast(im)
im = enhancer.enhance(2)
im = im.convert('1')
##a=remove_point(im)
pointmidu(im)
ocrend()

本人的这个方法,最终识别率确实不高,写出来,哪位高手有好的思路或者做法,望不惜赐教!

最新文章

  1. 【leetcode】Median of Two Sorted Arrays
  2. MySQL存储过程中实现回滚
  3. weblogic部署项目包,报空指针错误
  4. thinkphp框架验证码验证一次
  5. rqnoj-217-拦截导弹-最长不上升子序列以及不上升子序列的个数
  6. 【转载】IE6 PNG透明终极解决方案(打造W3Cfuns-IE6PNG最强帖)
  7. 教你50招提升ASP.NET性能(十八):在处理网站性能问题前,首先验证问题是否出在客户端
  8. thinkphp这样玩关联查询(实例教会你)
  9. 用链表实现栈----《数据结构与算法分析----C语言描述》
  10. 数据库DDL操作
  11. 排序算法之NB三人组
  12. Java基础系列--08_集合1
  13. python课程分享2-伊嬛
  14. 一步步实现windows版ijkplayer系列文章之二——Ijkplayer播放器源码分析之音视频输出——视频篇
  15. Object Detection
  16. Java Arrays.sort源代码解析
  17. @ResponseBody的作用
  18. Shiro学习笔记 三(认证授权)
  19. Mysql读写分离-Amoeba Proxy
  20. Spark应用程序的运行架构几种说

热门文章

  1. SQL中 decode()函数简介
  2. Oracle最大进程连接数问题
  3. SAT考试里最难的数学题? &middot; 三只猫的温暖
  4. C++走向远洋——63(项目二2、两个成员的类模板)
  5. web系统是否要前后端分离?
  6. Ansible-基本概述
  7. 位运算基础(Uva 1590,Uva 509题解)
  8. JavaScript常见的六种继承方式
  9. hadoop HDFS完全分布式搭建
  10. Mac上Burpsuite 拦截不到HTTPS流量怎么设置