tesseract-ocr图片识别开源工具

今天看同事的ppt,提到了图片识别,又tesseract-ocr,觉得不错,试一下,如果效果好可以用来做验证码的识别
http://code.google.com/p/tesseract-ocr/

tesseract是一款开源工具,我安装了Windows版试水先

1、首先登录首页在‘下载’页面下载

  1. tesseract-ocr-setup-xx.xx.exe
  2. chi_sim.traineddata.gz   中文语言包

2、双击即可安装tesserract-ocr,

3、安装中文语言包,将语言包 chi_sim.traineddata.gz   解压到 Tesseract-OCR下

4、写测试代码:

  1. package com.taobao.voc.tesseract;
  2. import java.io.BufferedReader;
  3. import java.io.File;
  4. import java.io.FileInputStream;
  5. import java.io.InputStreamReader;
  6. import java.util.ArrayList;
  7. import java.util.List;
  8. import org.jdesktop.swingx.util.OS;
  9. public class OCR {
  10. private final String LANG_OPTION = "-l";  //英文字母小写l,并非数字1
  11. private final String EOL = System.getProperty("line.separator");
  12. private String tessPath = "D://java_tools//Tesseract-OCR";
  13. //private String tessPath = new File("tesseract").getAbsolutePath();
  14. public String recognizeText(File imageFile,String imageFormat)throws Exception{
  15. File tempImage = ImageIOHelper.createImage(imageFile,imageFormat);
  16. File outputFile = new File(imageFile.getParentFile(),"output");
  17. StringBuffer strB = new StringBuffer();
  18. List<String> cmd = new ArrayList<String>();
  19. if(OS.isWindowsXP()){
  20. cmd.add(tessPath+"//tesseract");
  21. }else if(OS.isLinux()){
  22. cmd.add("tesseract");
  23. }else{
  24. cmd.add(tessPath+"//tesseract");
  25. }
  26. cmd.add("");
  27. cmd.add(outputFile.getName());
  28. cmd.add(LANG_OPTION);
  29. //cmd.add("chi_sim");
  30. cmd.add("eng");
  31. ProcessBuilder pb = new ProcessBuilder();
  32. pb.directory(imageFile.getParentFile());
  33. cmd.set(1, tempImage.getName());
  34. pb.command(cmd);
  35. pb.redirectErrorStream(true);
  36. Process process = pb.start();
  37. //tesseract.exe 1.jpg 1 -l chi_sim
  38. int w = process.waitFor();
  39. //删除临时正在工作文件
  40. tempImage.delete();
  41. if(w==0){
  42. BufferedReader in = new BufferedReader(new InputStreamReader(new FileInputStream(outputFile.getAbsolutePath()+".txt"),"UTF-8"));
  43. String str;
  44. while((str = in.readLine())!=null){
  45. strB.append(str).append(EOL);
  46. }
  47. in.close();
  48. }else{
  49. String msg;
  50. switch(w){
  51. case 1:
  52. msg = "Errors accessing files.There may be spaces in your image's filename.";
  53. break;
  54. case 29:
  55. msg = "Cannot recongnize the image or its selected region.";
  56. break;
  57. case 31:
  58. msg = "Unsupported image format.";
  59. break;
  60. default:
  61. msg = "Errors occurred.";
  62. }
  63. tempImage.delete();
  64. throw new RuntimeException(msg);
  65. }
  66. new File(outputFile.getAbsolutePath()+".txt").delete();
  67. return strB.toString();
  68. }
  69. }
  1. package com.taobao.voc.tesseract;
  2. import java.awt.image.BufferedImage;
  3. import java.io.File;
  4. import java.io.IOException;
  5. import java.util.Iterator;
  6. import java.util.Locale;
  7. import javax.imageio.IIOImage;
  8. import javax.imageio.ImageIO;
  9. import javax.imageio.ImageReader;
  10. import javax.imageio.ImageWriteParam;
  11. import javax.imageio.ImageWriter;
  12. import javax.imageio.metadata.IIOMetadata;
  13. import javax.imageio.stream.ImageInputStream;
  14. import javax.imageio.stream.ImageOutputStream;
  15. import com.sun.media.imageio.plugins.tiff.TIFFImageWriteParam;
  16. public class ImageIOHelper {
  17. /**
  18. * 图片文件转换为tif格式
  19. * @param imageFile 文件路径
  20. * @param imageFormat 文件扩展名
  21. * @return
  22. */
  23. public static File createImage(File imageFile, String imageFormat) {
  24. File tempFile = null;
  25. try {
  26. Iterator<ImageReader> readers = ImageIO.getImageReadersByFormatName(imageFormat);
  27. ImageReader reader = readers.next();
  28. ImageInputStream iis = ImageIO.createImageInputStream(imageFile);
  29. reader.setInput(iis);
  30. //Read the stream metadata
  31. IIOMetadata streamMetadata = reader.getStreamMetadata();
  32. //Set up the writeParam
  33. TIFFImageWriteParam tiffWriteParam = new TIFFImageWriteParam(Locale.CHINESE);
  34. tiffWriteParam.setCompressionMode(ImageWriteParam.MODE_DISABLED);
  35. //Get tif writer and set output to file
  36. Iterator<ImageWriter> writers = ImageIO.getImageWritersByFormatName("tiff");
  37. ImageWriter writer = writers.next();
  38. BufferedImage bi = reader.read(0);
  39. IIOImage image = new IIOImage(bi,null,reader.getImageMetadata(0));
  40. tempFile = tempImageFile(imageFile);
  41. ImageOutputStream ios = ImageIO.createImageOutputStream(tempFile);
  42. writer.setOutput(ios);
  43. writer.write(streamMetadata, image, tiffWriteParam);
  44. ios.close();
  45. writer.dispose();
  46. reader.dispose();
  47. } catch (IOException e) {
  48. e.printStackTrace();
  49. }
  50. return tempFile;
  51. }
  52. private static File tempImageFile(File imageFile) {
  53. String path = imageFile.getPath();
  54. StringBuffer strB = new StringBuffer(path);
  55. strB.insert(path.lastIndexOf('.'),0);
  56. return new File(strB.toString().replaceFirst("(?<=//.)(//w+)$", "tif"));
  57. }
  58. }

测试代码

  1. package com.taobao.voc.tesseract;
  2. import java.io.File;
  3. import java.io.IOException;
  4. public class TestOCR {
  5. /**
  6. * @param args
  7. */
  8. public static void main(String[] args) {
  9. String path = "d://test4.jpg";
  10. try {
  11. String valCode = new OCR().recognizeText(new File(path), "jpg");
  12. System.out.println(valCode);
  13. } catch (IOException e) {
  14. e.printStackTrace();
  15. } catch (Exception e) {
  16. e.printStackTrace();
  17. }
  18. }
  19. }

String path = "d://test4.jpg"; 修改为需要测试的图片,最好全中文,如果因为请更换语言包,OCR类中cmd.add("chi_sim");

最新文章

  1. COGS 2533. [HZOI 2016]小鱼之美
  2. ffmpeg-20160522-git-bin
  3. hdu 1249 三角形
  4. 2014年5月份第3周51Aspx源码发布详情
  5. 使用Sharepoint定时运行Excel中宏程序
  6. java 21 - 1 IO流中的字符流概述
  7. myeclipse2014集成SVN
  8. BZOJ1635: [Usaco2007 Jan]Tallest Cow 最高的牛
  9. ssh无密登录
  10. 栈实现java
  11. 十天学Linux内核之第一天---内核探索工具类
  12. 1147: 零起点学算法54——Fibonacc
  13. 只需几分钟跟小猫学前端(内含视频教程):nodejs基础之用express、ejs、mongdb建设简单的网站
  14. Bootstrap -- 插件: 提示工具、弹出框、 警告框消息
  15. Centos 7 .Net core后台守护进程Supervisor配置
  16. 【原创】Mysql中select的正确姿势
  17. T-Pot平台Honeytrap蜜罐TCP/UDP服务攻击探测及实现自动化邮件告警
  18. Ubuntu 14.10 下安装rabbitvcs-版本控制
  19. 记一款bug管理系统(bugdone.cn)的开发过程(1) -- 为什么要开发一款bug开发系统
  20. SSH进行登录远程主机,实验室网站,项目

热门文章

  1. @Resource 和 @Autowired注解的异同
  2. ios将一个项目完全导为另一个项目(tool)
  3. [Redux] Reducer Composition with Arrays
  4. Android 自定义View (三) 圆环交替 等待效果
  5. ZOJ2099
  6. svg学习笔记
  7. HTML中常用鼠标样式
  8. raw和字符串的转换。
  9. Jenkins学习之——(3)将项目发送到tomcat
  10. Date与Calendar