主要思路是根据教程使用源码安装完tesseract后，然后通过安装pillow与pytesseract打通python进行在python代码中引用使用。

Python爬虫验证码识别（使用Tesseract OCR识别）

关注后私信小编 PDF领取十套电子文档书籍

I. 依赖安装

brewinstallautomake autoconf libtool
brewinstallpkgconfig
brewinstallicu4c
brewinstallleptonica
brewinstallgcc

II. Tesseract编译安装

git clone https://github.com/tesseract-ocr/tesseract/
cd tesseract
./autogen.sh
./configure CC=gcc-8 CXX=g++-8 CPPFLAGS=-I/usr/local/opt/icu4c/include LDFLAGS=-L/usr/local/opt/icu4c/lib
make -j
sudo make install # if desired

III. 语言配置

需要识别语言配置(参照教程 ):

前面安装完后，你会发现在 /usr/local/share/tessdata 会有默认的data，将 export TESSDATA_PREFIX='/usr/local/share/tessdata' 配置到系统环境中
在这里下载对应版本的语言包
将下载的语言包直接放到这个 /usr/local/share/tessdata

比如我这边是4.0版本，我需要的是对英文的ocr识别(识别英文的验证码)，我就直接下载4.00版本的 eng.traineddata :

Python爬虫验证码识别（使用Tesseract OCR识别）

然后再将下载下来的 eng.traineddata 放到到 /usr/local/share/tessdata 中即可:

Python爬虫验证码识别（使用Tesseract OCR识别）

IV. 打通Python

这边打通python直接通过 pytesseract ，十分方便。

先安装pillow:

pip install pillow

再安装pytesseract:

pip install pytesseract

安装完成后就可以通过其在python中使用了，如:

try:
 from PIL import Image
except ImportError:
 import Image
import pytesseract
# Simple image to string
print(pytesseract.image_to_string(Image.open('test.png')))
# French text image to string
print(pytesseract.image_to_string(Image.open('test-european.jpg'), lang='fra'))

更多使用方法参照官方的文档。

想要学习Python。关注小编头条号，私信【学习资料】，即可免费领取一整套系统的板Python学习教程！

Python爬虫验证码识别（使用Tesseract OCR识别）

关注后私信小编 PDF领取十套电子文档书籍

Lenskit

相关推荐

Python怎么识别文字？正确的方法详解

使用一行Python代码从图像读取文本

【docker】CentOS7.4+Python3.7+selenium+Firefox+tesseract的搭建

python-使用内置库pytesseract实现图片验证码的识别

python批量识别图片指定区域文字内容

如何使用Python进行OCR识别图片中的文字

[译]OpenCV OCR and text recognition with Tesseract

python利用Tesseract识别验证码

Python Tesseract 图片识别-小操练

Python图像处理之图片验证码识别

node网络爬虫实例了解下？

Tesseract 进行图像识别

用splinter实现163邮箱的自动登录

只需5分钟，Python就可以建一个OCR服务器！附赠python学习资料

5分钟用Python建一个OCR服务器（文末附python教程分享）

每天5分钟—用Python建一个OCR服务器（附19最新python教程分享）

PHP OCR实战：用Tesseract从图像中读取文字

Python实现基于PIL和tesseract的验证码识别功能示例

Python实现识别图片内容的方法分析

python使用Tesseract库识别验证

python实现图像识别功能

教你用Python写安卓游戏外挂

python selenium UI自动化解决验证码的4种方法

Python编程实现的图片识别功能示例

基于Python实现对PDF文件的OCR识别

python下调用pytesseract识别某网站验证码的实现方法

PHP脚本自动识别验证码查询汽车违章

详解Python安装tesserocr遇到的各种问题及解决办法

python利用Tesseract识别验证码的方法示例

流行的软件测试工具介绍

如何制作一个Node命令行图像识别工具

selenium+Python3.5获取验证码 Tesseract-OCR pytesseract

爬虫——文字识别