最新公告
  • 欢迎您光临起源地模板网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入钻石VIP
  • Python3爬虫利器:tesserocr的安装

    正文概述    2020-03-15   320

    Python3爬虫利器:tesserocr的安装

    在爬虫过程中,难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们可以直接用OCR来识别。

    1. OCR

    OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则的字符,这些字符确实是由字符稍加扭曲变换得到的内容。

    例如,对于如图1-22和图1-23所示的验证码,我们可以使用OCR技术来将其转化为电子文本,然后爬虫将识别结果提交给服务器,便可以达到自动识别验证码的过程。

    Python3爬虫利器:tesserocr的安装

    图1-22 验证码

    Python3爬虫利器:tesserocr的安装

    图1-23 验证码

    tesserocr是Python的一个OCR识别库,但其实是对tesseract做的一层Python API封装,所以它的核心是tesseract。因此,在安装tesserocr之前,我们需要先安装tesseract。

    2. 相关链接

    tesserocr GitHub:https://github.com/sirfz/tesserocr

    tesserocr PyPI:https://pypi.python.org/pypi/tesserocr

    tesseract下载地址:http://digi.bib.uni-mannheim.de/tesseract

    tesseract GitHub:https://github.com/tesseract-ocr/tesseract

    tesseract语言包:https://github.com/tesseract-ocr/tessdata

    tesseract文档:https://github.com/tesseract-ocr/tesseract/wiki/Documentation

    3. Windows下的安装

    在Windows下,首先需要下载tesseract,它为tesserocr提供了支持。

    进入下载页面,可以看到有各种.exe文件的下载列表,这里可以选择下载3.0版本。图1-24所示为3.05版本。

    Python3爬虫利器:tesserocr的安装

    图1-24 下载页面

    其中文件名中带有dev的为开发版本,不带dev的为稳定版本,可以选择下载不带dev的版本,例如可以选择下载tesseract-ocr-setup-3.05.01.exe。

    下载完成后双击,此时会出现如图1-25所示的页面。

    Python3爬虫利器:tesserocr的安装

    图1-25 安装页面

    此时可以勾选Additional language data(download)选项来安装OCR识别支持的语言包,这样OCR便可以识别多国语言。然后一路点击Next按钮即可。

    接下来,再安装tesserocr即可,此时直接使用pip安装:

    pip3 install tesserocr pillow

    4. Linux下的安装

    对于Linux来说,不同系统已经有了不同的发行包了,它可能叫作tesseract-ocr或者tesseract,直接用对应的命令安装即可。

    Ubuntu、Debian和Deepin

    在Ubuntu、Debian和Deepin系统下,安装命令如下:

    sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev

    CentOS、Red Hat

    在CentOS和Red Hat系统下,安装命令如下:

    yum install -y tesseract

    在不同发行版本运行如上命令,即可完成tesseract的安装。

    安装完成后,便可以调用tesseract命令了。

    接着,我们查看一下其支持的语言:

    tesseract --list-langs

    运行结果示例:

    List of available languages (3):
    eng
    osd
    equ

    结果显示它只支持几种语言,如果想要安装多国语言,还需要安装语言包,官方叫作tessdata(其下载链接为:https://github.com/tesseract-ocr/tessdata)。

    利用Git命令将其下载下来并迁移到相关目录即可,不同版本的迁移命令如下所示。

    在Ubuntu、Debian和Deepin系统下的迁移命令如下:

    git clone https://github.com/tesseract-ocr/tessdata.git
    sudo mv tessdata/* /usr/share/tesseract-ocr/tessdata

    在CentOS和Red Hat系统下的迁移命令如下:

    git clone https://github.com/tesseract-ocr/tessdata.git
    sudo mv tessdata/* /usr/share/tesseract/tessdata

    这样就可以将下载下来的语言包全部安装了。

    这时我们重新运行列出所有语言的命令:

    tesseract --list-langs

    结果如下:

    List of available languages (107):
    afr
    amh
    ara
    asm
    aze
    aze_cyrl
    bel
    ben
    bod
    bos
    bul
    cat
    ceb
    ces
    chi_sim
    chi_tra
    ...

    可以发现,这里列出的语言就多了很多,比如chi_sim就代表简体中文,这就证明语言包安装成功了。

    接下来再安装tesserocr即可,这里直接使用pip安装:

    pip3 install tesserocr pillow

    5. Mac下的安装

    在Mac下,我们首先使用Homebrew安装ImageMagick和tesseract库:

    brew install imagemagick 
    brew install tesseract --all-languages

    接下来再安装tesserocr即可:

    pip3 install tesserocr pillow

    这样我们便完成了tesserocr的安装。

    6. 验证安装

    接下来,我们可以使用tesseract和tesserocr来分别进行测试。

    下面我们以如图1-26所示的图片为样例进行测试。

    Python3爬虫利器:tesserocr的安装

    图1-26 测试样例

    该图片的链接为https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.png,可以直接保存或下载。 

    首先用命令行进行测试,将图片下载下来并保存为image.png,然后用tesseract命令测试:

    tesseract image.png result -l eng && cat result.txt

    运行结果如下:

    Tesseract Open Source OCR Engine v3.05.01 with Leptonica
    Python3WebSpider

    这里我们调用了tesseract命令,其中第一个参数为图片名称,第二个参数result为结果保存的目标文件名称,-l指定使用的语言包,在此使用英文(eng)。然后,再用cat命令将结果输出。

    运行结果便是图片的识别结果:Python3WebSpider。可以看到,这时已经成功将图片文字转为电子文本了。

    然后还可以利用Python代码来测试,这里就需要借助于tesserocr库了,测试代码如下:

    import tesserocr
    from PIL import Image
    image = Image.open('image.png')
    print(tesserocr.image_to_text(image))

    我们首先利用Image读取了图片文件,然后调用了tesserocr的image_to_text()方法,再将其识别结果输出。

    运行结果如下:

    Python3WebSpider

    另外,我们还可以直接调用file_to_text()方法,这可以达到同样的效果:

    import tesserocr
    print(tesserocr.file_to_text('image.png'))

    运行结果:

    Python3WebSpider

    如果成功输出结果,则证明tesseract和tesserocr都已经安装成功。

    python学习网,免费的在线学习python平台,欢迎关注!

    本文转自:https://cuiqingcai.com/5189.html


    起源地下载网 » Python3爬虫利器:tesserocr的安装

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    模板不会安装或需要功能定制以及二次开发?
    请QQ联系我们

    发表评论

    还没有评论,快来抢沙发吧!

    如需帝国cms功能定制以及二次开发请联系我们

    联系作者

    请选择支付方式

    ×
    迅虎支付宝
    迅虎微信
    支付宝当面付
    余额支付
    ×
    微信扫码支付 0 元