利用百度AI OCR图片识别，Java实现PDF中的图片转换成文字

chenzhx 2019-09-06

序言：我们在读一些PDF版书籍的时候，如果PDF中不是图片，做起读书笔记的还好；如果PDF中的是图片的话，根本无法编辑，做起笔记来，还是很痛苦的。我是遇到过了。我们搞技术的，当然得自己学着解决现在的痛点。

一. 现状

为了不重复造轮子，当然得看看现在市面上是否有已经实现过的，如果有，那自然是拿来即用。

首先，说说一些在线版的PDF图片转文字，对文件大小有限制为2M(似乎有很多的文件处理都是限制在这个数)，超过了便要收费了。

第二，那就是WPS的PDF图片转文字了。别说大小限制了，直接是收费。
利用百度AI OCR图片识别，Java实现PDF中的图片转换成文字

二. 方案实现

2.1 百度AI平台获取AppID, API Key, Secret Key

利用百度AI OCR图片识别，Java实现PDF中的图片转换成文字

该平台限制调用次数，作为个人开发者来说，基本上是够用了。
利用百度AI OCR图片识别，Java实现PDF中的图片转换成文字

Java SDK文档使用说明: https://ai.baidu.com/docs#/OCR-Java-SDK/top

不清楚的，可以去看文档。

2.2 代码实现

逻辑思路：读取PDF文件，然后读取PDF中包含的图片，将图片传给百度AI平台去进行识别，返回结果解析。

第一步：新建一个Demo的Maven工程

省略....（相信大家都会哈）

: chenzhx

相关推荐

达观数据融合自研OCR与NLP技术推出智能RPA<

2019 年7月 26 日，人工智能企业达观数据在北京召开“达道至简”为主题的产品发布会，正式推出国内首款自主研发集OCR与 NLP于一体的达观智能RPA。RPA作为一种软件产品和解决方案，在国外市场上已进入大规模发展应用。RPA 的价值在于将企业重复性劳

WarGamesdc 0喜欢 / 0评论 2020-06-30

Android 图片文字识别DEMO（基于百度OCR）

OCR 是 Optical Character Recognition 的缩写，翻译为光学字符识别，指的是针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技

alanlonglong 0喜欢 / 0评论 2020-06-14

集成百度OCR

目前Android这块没有理想的免费OCR开源框架,项目需要,我们选择了百度的OCR 产品;这里以AS开发环境,身份证信息识别功能为例,阐述集成使用ORC的过程;private static final String APIKey = "官网上传

doomvsjing 0喜欢 / 0评论 2020-06-11

使用Tensorflow Object Detection API进行集装箱识别并对集装箱号进行OCR识别

两年多之前我在“ex公司”的时候，有一个明确的项目需求是集装箱识别并计数，然后通过OCR识别出之前计数的每一个集装箱号，与其余业务系统的数据进行交换，以实现特定的整体需求。当时正好Tensorflow Object Detection API 发布了，就

lybbb 0喜欢 / 0评论 2020-03-27

selenium+云打码+百度ocr爬取360的电话号码标记

写了个脚本，用于从www.so.com 上查询电话号码的标记情况，记录下号码所属公司、标记类型、标记人数。如下图红框中的信息。主要使用python的beautifulsoup和selenium，还用到了云打码平台和百度OCR。约4-8秒处理一个号码，只能单

云之高水之远 0喜欢 / 0评论 2019-11-10

selenium+云打码+百度ocr爬取360的电话号码标记

写了个脚本，用于从www.so.com 上查询电话号码的标记情况，记录下号码所属公司、标记类型、标记人数。如下图红框中的信息。主要使用python的beautifulsoup和selenium，还用到了云打码平台和百度OCR。约4-8秒处理一个号码，只能单

amei0 0喜欢 / 0评论 2019-11-10

OCR文字识别技术为人工智能添彩

当代可为是一个科学技术的社会，日新月异的科学技术正在飞速发展，生活中处处都能感受到科学技术就在身边以强有力的步伐在发展。科技的魅力就在于它正在改变着我们的生活，同时改变着世界。经过多年的创新与发展，文通科技现已成长为国内知名的高新技术企业，在全国十余个城市

luoyouren 0喜欢 / 0评论 2019-10-29

Readiris Corporate 17 for Mac(专业光学识别OCR软件)

Readiris Corporate 17 Mac是一款功能强大的专业光学识别OCR软件，可识别128种文字语言！Readiris Corporate Mac能够帮助你将纸张、PDF文件、图片文字的文字元素扫描成文字，具有自动识别和自动分析的功能，识别效率

Charliewolf 0喜欢 / 0评论 2019-10-22

如何使用Python进行OCR识别图片中的文字

OCR1，全称Optical character recognition，或者optical character reader，中文译名叫做光学文字识别。它是把图像文件中的手写文本，打印文本转换为机器编码文本的一种方法。OCR技术广泛用于识别打印纸张中的文

我心飞翔之家 0喜欢 / 0评论 2019-04-01

OCR SDK开发者平台新增人证API接口

今年9月3-5日在厦门举办第九届金砖五国峰会。而对于召开如此重要的峰会来说，社会治安这点是很重要一点。那么，砖五国峰会期间，如何高效处理好周边的安防问题？这里，不得不提云脉人证一致解决方案了！该方案凭借其更高的可靠性、安全性和可用性优势，将成为厦门金砖会议

liuweiITlove 0喜欢 / 0评论 2017-07-28

win10预览版10074再次更新:OCR中文语言包

　　今天微软向用户推送了最新win10预览版10074更新，内容主要是OCR简体中文语言包更新。用户可以通过设置应用中的windows更新下载安装OCR简体中文语言包。一起接下去看看win10预览版10074更新:OCR中文语言包的具体内容吧！但实际安装后

regina 0喜欢 / 0评论 2015-05-12

[译]OpenCV OCR and text recognition with Tesseract

几周前,我向您展示了如何执行文本检测使用OpenCV的EAST深度学习模型。下一步是把这些区域包含文本和实际识别和OCR文字使用OpenCV和Tesseract。为了执行 OpenCV OCR 和文本识别任务，我们首先需要安装 Tesseract v4，包

Jasterwisdom 0喜欢 / 0评论 2019-07-01

OCR：精准、稳定、易用的文字识别

大家好，今天给大家介绍精准、稳定、易用的文字识别应用服务OCR。由此可见OCR实际上是让计算机认字，实现文字的自动输入，它是一种快捷、省力、高效的文本输入方法。需要注意的是OCR是指文字识别，但是OCR所采用的技术不仅仅是适用于文字识别。华为云学院现已发布

LinBSoft 0喜欢 / 0评论 2019-07-01

一篇文章搞定百度OCR图片文字识别API

研究百度OCR的API，主要是向做对扫描版的各种PDF进行文字识别并转Word文档的需求。这里用Postman客户端进行测试和演示。因为Postman是对各种API操作的最佳入门方式。一旦在Postman里实现了正确的调用，剩下的就只是一键生成代码，和一些

那年夏天 0喜欢 / 0评论 2019-06-30

如何精准实现OCR文字识别？

欢迎大家前往腾讯云+社区，获取更多腾讯海量技术实践干货哦~前言2018年3月27日腾讯云云+社区联合腾讯云智能图像团队共同在客户群举办了腾讯云OCR文字识别——智能图像分享活动，活动举办期间用户耐心听分享嘉宾的介绍，并提出了相关的问题，智能图像团队的科学家

nanqi 0喜欢 / 0评论 2019-06-28

OCR如何读取皱巴巴的文件？深度学习在文档图像形变矫正的应用详解

譬如：支付宝需要对用户的身份证信息进行审核，1688需要对卖家的营业执照进行审核。此外，还有一些业务涉及的是需要专业人士才有足够能力进行审核的信用证和保单。近年来，人工智能在越来越多的任务中的表现已经超过了人类。除却算法本身，图像质量乃是影响OCR识别准确

HappinessSourceL 0喜欢 / 0评论 2019-06-28

PHP+百度AI OCR文字识别实现了图片的文字识别功能

-const APP_ID = '请填写你的appid';"words": "无论对方富有或贫穷。

机器之心 0喜欢 / 0评论 2019-05-08

只需5分钟，Python就可以建一个OCR服务器！附赠python学习资料

OCR已经成为Python的一个常用工具。随着开源库Tesseract和Ocrad的出现，越来越多的程序员用OCR来编写自己的库文件和bot病毒。一个OCR的小例子，如用OCR直接从截图中提取文本，省去了重新键入的麻烦。开始之前，我们需要开发一个后端服务层

petal0 0喜欢 / 0评论 2019-05-27

百度是如何做OCR结构化处理的？|技术头条

OCR技术是目前常用的一种AI能力。但一般OCR的识别结果是一种按行输出的半结构化输出。本次公开课我们邀请到了百度高级研发工程师向宇波老师，他将在12月20日（周四）带来一场主题为《基于模板的文字识别结果结构化处理技术》的分享。

我心飞翔之家 0喜欢 / 0评论 2019-05-04

5分钟用Python搭建一个OCR服务器，可以直接截图中提取文本

OCR已经成为Python的一个常用工具。随着开源库Tesseract和Ocrad的出现，越来越多的程序员用OCR来编写自己的库文件和bot病毒。一个OCR的小例子，如用OCR直接从截图中提取文本，省去了重新键入的麻烦。开始的步骤开始之前，我们需要开发一个

hanxia 0喜欢 / 0评论 2019-03-13

5分钟用Python建一个OCR服务器（文末附python教程分享）

OCR已经成为Python的一个常用工具。随着开源库Tesseract和Ocrad的出现，越来越多的程序员用OCR来编写自己的库文件和bot病毒。一个OCR的小例子，如用OCR直接从截图中提取文本，省去了重新键入的麻烦。开始之前，我们需要开发一个后端服务层

tmaczt 0喜欢 / 0评论 2019-02-24

Python爬虫验证码识别（使用Tesseract OCR识别）

主要思路是根据教程使用源码安装完tesseract后，然后通过安装pillow与pytesseract打通python进行在python代码中引用使用。

Lenskit 0喜欢 / 0评论 2018-11-02

每天5分钟—用Python建一个OCR服务器（附19最新python教程分享）

OCR已经成为Python的一个常用工具。随着开源库Tesseract和Ocrad的出现，越来越多的程序员用OCR来编写自己的库文件和bot病毒。一个OCR的小例子，如用OCR直接从截图中提取文本，省去了重新键入的麻烦。开始之前，我们需要开发一个后端服务层

sdwylry 0喜欢 / 0评论 2019-04-02

PHP OCR实战：用Tesseract从图像中读取文字

它有各种各样的实际应用–从数字化印刷书籍、创建收据的电子记录，到车牌识别甚至破解基于图像的验证码。Tesseract是一个能实现OCR的开源项目。你能在*Nix系统，Mac系统和Windows系统上运行这个项目，但是只要使用一个库，我们就能在PHP项目中使

LipperZ 0喜欢 / 0评论 2016-01-15

Oracle RAC OCR盘故障导致的集群重启恢复

最近出现了一次OCR盘的故障导致Oracle集群件宕机的事故，后以独占模式启动集群，并使用ocr备份恢复了OCR文件以及重新设置了vote disk，然后关闭集群，重启成功。因此在此处进行事故重现以吸取教训。

我的DBA之路 0喜欢 / 0评论 2017-03-23

python 3调用百度OCR API实现剪贴板文字识别

本程序调用百度OCR API对剪贴板的图片文字识别，配合CaptureScreen软件，可快速识别文字。print以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持安科网。

castingAT 0喜欢 / 0评论 2018-09-04

Oracle RAC集群、进程、日志简介

在单机环境下，Oracle是运行在OS Kernel 之上的。OS Kernel负责管理硬件设备，并提供硬件访问接口。Oracle 不会直接操作硬件，而是有OS Kernel代替它来完成对硬件的调用请求。这时就需要引入额外的控制机制，在RAC中，这个机制就

yinjia 0喜欢 / 0评论 2015-04-18

Oracle 11g ocr 冗余配置

在11g 安装过程中默认只能指定一个 dg 用来存储：crs ，voting但是Oracle 官方一般建议我们这么来配置：。如果底层存储不是RAID的话，oracle建议镜像OCR，镜像可以避免单点故障。[root@vmrac1 ~]# ocrcheck

IT门户 0喜欢 / 0评论 2014-06-16

Oracle database 11g rac损坏ocr和votedisk恢复实验

本人的操作环境：Oracle database rdbms 11g rac on OEL5.5查看一下表决磁盘和ocr的信息：[root@rac1 bin]# pwd/u01/app/11.2.0/grid/bin[root@rac1 bin]# ./cr

天涯客Blog 0喜欢 / 0评论 2014-05-13

Docker创建Python自定义环境-OCR服务器

Docker创建Python自定义环境-ocr服务1、dockerfileFROM python:3.5. docker run -it someimage /bin/bash 此命令只会创建一个临时容器关闭后就会被删除。docker create -

liusaisoso 0喜欢 / 0评论 2017-03-21

腾讯数平精准推荐 | OCR技术之检测篇

在过去的数年中，腾讯数平精准推荐团队一直致力于实时精准推荐、海量大数据分析及挖掘等领域的技术研发与落地。特别是在广告推荐领域，团队自研的基于深度在线点击率预估算法及全流程实时推荐系统，持续多年在该领域取得显著成绩。而在用户意图和广告理解上，借助于广告图片中

alanlonglong 0喜欢 / 0评论 2019-04-22

数平精准推荐 | OCR技术之系统篇

算法、数据、系统三位一体，随着算法的快速发展和数据的日益积累，系统也在高效而稳定地升级。算法系统，尤其是图像识别算法系统，运行环境包括CPU与GPU，框架除了要支持不同环境的高效运行，也要支持不同环节运行在不同硬件环境，以保证资源合理高效的使用。本节将结合

算法的天空 0喜欢 / 0评论 2019-04-22

数平精准推荐 | OCR技术之数据篇

如图fig.2所示，OCR的作用是检测图像中的文字区域以及识别文字内容。相比物体检测识别，OCR由于包含倾斜文本框，低分辨率文字，以及文本版面多样化，因此OCR数据标注具有特殊性，标注成本更高。

羽化成蝶 0喜欢 / 0评论 2019-04-22

Oracle 11g RAC Votedisk、OCR以及各种资源的管理

题：Oracle 11g Rac 维护相对与10g而言难度有些许的增加，命令也多了一些，下面对11g rac 的Votedisk、OCR以及各种资源维护时用到的一些命令进行总结，方便日后查看。通过-n选项指定节点，如果Clusterware或者数据库正在访

午后红茶 0喜欢 / 0评论 2013-07-29

Oracle 11g RAC OCR 与 db_unique_name 配置关系说明

数据库的实例名本来是dave，因为做成RAC standby，所以数据库的db_unique_name 就改成了dave_st。这个在单实例是没有什么问题，但RAC 的db_unique_name 也会注册到OCR中。然后RAC 节点的pfile，就会自动

yanhui00 0喜欢 / 0评论 2013-07-19

Oracle RAC 迁移OCR（10g）

如果想要改变一个已经存在的ocr位置或改变一个已经出现故障的ocr位置，那么你就可以使用下面的过程来迁移ocr。这里raw7为普通ocr，raw8为镜像ocr2.在Oracle clusterware 运行的节点上执行如下命令：。[oracle@node1

xml 0喜欢 / 0评论 2013-03-21

Oracle RAC 备份和恢复OCR（10g）

自动备份：Oracle Clusterware automatically creates OCR backups every 4 hours. At any one time, Oracle Clusterware always retains the

社会主义好 0喜欢 / 0评论 2013-03-21

Oracle RAC OCR 的备份与恢复

Oracle Clusterware把整个集群的配置信息放在共享存储上，这些信息包括了集群节点的列表、集群数据库实例到节点的映射以及CRS应用程序资源信息。也即是存放在ocr 磁盘上。因此对于这个配置文件的重要性是不言而喻的。任意使得ocr配置发生变化的操

booloot 0喜欢 / 0评论 2013-02-26

Oracle RAC OCR 的管理与维护

OCR相当于Windows的注册表。对于Windows而言，所有的软件信息，用户，配置，安全等等统统都放到注册表里边。而集群呢，同样如此，所有和集群相关的资源，配置，节点，RAC数据库统统都放在这个仓库里。如果OCR被破坏则导致集群服务启动异常，需要修复O

zhangnana00 0喜欢 / 0评论 2013-02-26

Oracle RAC OCR 与健忘症

OCR就好比Windows的一个注册表，存储了所有与集群，RAC数据库相关的配置信息。而且是公用的配置，也就是说多个节点共享相同的配置信息。因此该配置应当存储于共享磁盘。本文主要基于Oracle 10g RAC描述了集群的OCR以及OCR产生的健忘问题。同

xinjingsihai 0喜欢 / 0评论 2013-02-26

基于Python实现对PDF文件的OCR识别

最近在做一个项目的时候，需要将PDF文件作为输入，从中输出文本，然后将文本存入数据库中。为此，我找寻了很久的解决方案，最终才确定使用tesseract。所以不要浪费时间了，我们开始吧。在不同的系统中安装tesseract非常容易。为了简便，我们以Ubunt

solocoder 0喜欢 / 0评论 2019-04-25

RAC中ocr和voting disk位置

Oracle RAC的OCR和VOTING DISK管理的小技巧，用的时候参考一下。Oracle Cluster Registry 文件,是CRS 关键的组成部分。用于维护在Cluster 中高可用性组件的信息。例如，Cluster 节点列表，Cluste

oracleKing 0喜欢 / 0评论 2012-07-01

Python3实现腾讯云OCR识别

废话不多说，在网上找了下腾讯云OCR识别的，示例不多，用Python的还是Python2.7，花了点时间改成Python3的。先上图，腾讯自己的示例图：。info = "a=" + appid + "&b="

PythonBiglove 0喜欢 / 0评论 2018-11-27

微信OCR（2）：深度序列学习助力文字识别

此篇文章属于微信OCR技术介绍系列，着重介绍如何采用深度序列学习方法实现端到端的文本串识别并应用于微信产品。本篇主要为方法综述，下一篇着重介绍深度序列学习技术在微信产品中的落地。这里，文本串识别的输入默认已经是包含文本的最小外接矩形框，其目的是识别其中的文

xiangfreedom 0喜欢 / 0评论 2017-09-21

分享一个爬取HUST(哈理工)学生成绩的Python程序(OCR自动识别验证码)

"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:57.0) Gecko/20100101 Firefox/57.0". "groupId"

BitTigerio 0喜欢 / 0评论 2018-01-21

谈谈调用腾讯云【OCR-通用印刷体识别】Api踩的坑

随后上网搜了一下OCR接口，就准备使用腾讯云、百度的OCR接口试一下效果。不过这个腾讯云OCR就折腾了一天！有两种调用方式：Url和本地图片。Host和Authorization不能这样添加到Headers中。};　　这样运行代码时没有报错，不过后台返回“

微软信仰中心 0喜欢 / 0评论 2017-12-25

iText - OCR 截图识字新版：重写算法，段落识别更精准

在介绍新版前，稍稍解释下背景知识。OCR 服务已经识别出文字了，iText 还要做什么？iText 发布后，受到很多朋友的欢迎和好评，解决了诸如扫描版 PDF 无法复制等问题。不过，也有一些朋友有些误解，觉得 iText 仅仅是调用了 OCR 服务，是个壳

稀土 0喜欢 / 0评论 2017-12-07

行驶证OCR识别360度全面解析

机动车行驶证是准予机动车在我国境内道路上行驶的法定证件。驾驶员手中的机动车行驶证上详细记载了许多重要的信息,，包括车牌号码、车主姓名、型号类别、发动机号和车架号码、载质量或者乘坐人数、初次登记日期以及年度检验记录等。机动车行驶证具有惟一性的特点，即对于某一

耆乐 0喜欢 / 0评论 2017-12-03

有了 iText，你截图，腾讯、Google OCR 帮你识别文字

比如，在看类似上面的扫描版 PDF 时，想要复制其中的文字，怎么办？试试我新开发的工具 iText 吧。iText 是 macOS 平台的 OCR 工具，自带截图功能，选择屏幕任意区域，即可识别其中的文字，又爽又酷。配合 1 快捷键，使用体验更佳。当然，你

稀土 0喜欢 / 0评论 2017-11-30