Python Tesseract 图片识别-小操练

小科普
光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息.
Tesseract的OCR引擎最先由HP实验室于1985年研发，2005年，交由Google对Tesseract进行改进、优化工作。

准备工作

1.PIL 、Pytesseract

from PIL import Image
from pytesseract import image_to_string

2.安装引擎 Tesseract-OCR

ok 用画图工具整张简单的图片(vm3.png)小试牛刀

Python Tesseract 图片识别-小操练

上代码

from PIL import Image
from pytesseract import image_to_string

img = Image.open("vm3.png");
text = image_to_string(img)
print(text)

别走，留步，真的只有那么多，不信看结果

Python Tesseract 图片识别-小操练

支持中文

but,Tesseract是老外开发的，默认不支持中文，需要我们加个中文语言包
将文件chi_sim.traineddata （密码：nd6p）放到安装目录：Tesseract-OCR\tessdata文件夹内，再整张图

Python Tesseract 图片识别-小操练

代码骚作修改（，lang='chi_sim'）即可

from PIL import Image
from pytesseract import image_to_string

img = Image.open("vm3.png");
text = image_to_string(img,lang='chi_sim')
print(text)

没毛病

Python Tesseract 图片识别-小操练

骚微复杂图像处理

其实，复杂图片的来不了，需要处理一下，比如这张图片：
Python Tesseract 图片识别-小操练

这样处理：

img = Image.open("vm.png");
imgry = img.convert("L")
threshold = 140
table = []
for i in range(256):
    if i < threshold:
        table.append(0)
    else:
        table.append(1)
out = imgry.point(table, '1')
out.show()

show()一下处理后的结果：

Python Tesseract 图片识别-小操练

最后，整合一下：

img = Image.open("vm.png");
imgry = img.convert("L")
threshold = 140
table = []
for i in range(256):
    if i < threshold:
        table.append(0)
    else:
        table.append(1)
out = imgry.point(table, '1')
text = image_to_string(out)
print(text)

Python Tesseract 图片识别-小操练

我就知道你会回来，如果你在运行中遇到以下问题：

tesseract is not installed or it's not in your path

一图解万愁
Python Tesseract 图片识别-小操练

Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!

添加环境变量：

变量名：TESSDATA_PREFIX
变量值：testdata的路径

如果加了还不行，重启电脑！

如果还不行，试试百度OCR的吧
如果你用来作为验证码识别。可能会用到截屏和裁剪

Python Tesseract 图片识别-小操练

ok 用画图工具整张简单的图片(vm3.png)小试牛刀

上代码

支持中文

骚微复杂图像处理

zhongranxu

相关推荐

Python怎么识别文字？正确的方法详解

使用一行Python代码从图像读取文本

【docker】CentOS7.4+Python3.7+selenium+Firefox+tesseract的搭建

python-使用内置库pytesseract实现图片验证码的识别

python批量识别图片指定区域文字内容

如何使用Python进行OCR识别图片中的文字

[译]OpenCV OCR and text recognition with Tesseract

python利用Tesseract识别验证码

Python图像处理之图片验证码识别

node网络爬虫实例了解下？

Tesseract 进行图像识别

用splinter实现163邮箱的自动登录

只需5分钟，Python就可以建一个OCR服务器！附赠python学习资料

5分钟用Python建一个OCR服务器（文末附python教程分享）

Python爬虫验证码识别（使用Tesseract OCR识别）

每天5分钟—用Python建一个OCR服务器（附19最新python教程分享）

PHP OCR实战：用Tesseract从图像中读取文字

Python实现基于PIL和tesseract的验证码识别功能示例

Python实现识别图片内容的方法分析

python使用Tesseract库识别验证

python实现图像识别功能

教你用Python写安卓游戏外挂

python selenium UI自动化解决验证码的4种方法

Python编程实现的图片识别功能示例

基于Python实现对PDF文件的OCR识别

python下调用pytesseract识别某网站验证码的实现方法

PHP脚本自动识别验证码查询汽车违章

详解Python安装tesserocr遇到的各种问题及解决办法

python利用Tesseract识别验证码的方法示例

流行的软件测试工具介绍

如何制作一个Node命令行图像识别工具

selenium+Python3.5获取验证码 Tesseract-OCR pytesseract

爬虫——文字识别