360SDN.COM

tesseract 识别图片应用一

来源:  2017-06-13 13:59:41    评论:0点击:

Tesseract-OCR简介

    一个Google支持的开源的OCR图文识别开源项目。支持多种语言(我使用的是3.02 版本,支持包括英文,简体中文,繁体中文),支持Windows,Linux,Mac OSX 多平台。

      Tesseract安装

        我这里提供的是windows系统的安装文件,其他系统的请自行下载。下载地址:http://pan.baidu.com/s/1i58trVJ 。

        常规安装,安装成功后,打开安装目录如下:

        

       

    附录:
        tessdata 目录存放的是语言字库文件,和在命令行界面中可能用到的参数所对应的文件. 这个安装程序默认包含了英文字库。
        如果想能识别其他语言,可以到https://github.com/tesseract-ocr/tessdata下载对应的语言的字库文件。
        这里提供简体中文字的下载地址:http://pan.baidu.com/s/1slVJ9kL 下载完成后将该文件剪切到tessdata目录下去就可以了。
 

   Tesseract 使用

    PS:默认情况下安装程序会给你配置系统环境变量,以指向安装目录(之后可以通过DOS界面在任意目录运行tesseract)。
   安装完成打开命令行,输入tesseract,展现如下图说明已经安装成功。
  
  接下来就可以使用tesseract进行图片识别了。准备一副待识别的图像 test.jpg,我这里准备的是数字图片,所以使用默认的英文语言包即可。
 
 
定位到图片所在的目录:然后输入命令:tesseract test.jpg result -l eng,回车执行。然后再图片目录下查看文件,会发现生成了1个result.txt文件里面结果为:22711。
 
命令说明
tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]
tesseract 图片名 输出文件名 -l 字库文件 -psm pagesegmode 配置文件
例如:
tesseract test.jpg result -l eng -psm 7 nobatch
-l eng 表示用英文文字库(默认使用英文。如需要下载中文字库文件,解压后,存放到tessdata目录下去,字库文件扩展名为 .raineddata 简体中文字库文件名为: chi_sim.traineddata,命令为:chi_sim)
-psm 7 表示告诉tesseract test.jpg图片是一行文本 这个参数可以减少识别错误率. 默认为 3
configfile 参数值为tessdata\configs 和 tessdata\tessconfigs 目录下的文件名.
[] 中配置是可选配置。
 
中文识别
图片名字:word.jpg
命令:tesseract word.jpg result -l chi_sim
 
以上就是tesseract的简单使用。识别率还是可以的。如果有复杂的文本识别,duitesseract有较高的识别要求,可以通过使用训练后的语言库来提高识别的精度。这个没有做过研究,不做介绍。
下篇博客,介绍如何在java中使用 tesseract在项目中的应用
为您推荐

友情链接 |九搜汽车网 |手机ok生活信息网|ok生活信息网|ok微生活
 Powered by www.360SDN.COM   京ICP备11022651号-4 © 2012-2016 版权