chenzhx 2019-09-06
序言:我们在读一些PDF版书籍的时候,如果PDF中不是图片,做起读书笔记的还好;如果PDF中的是图片的话,根本无法编辑,做起笔记来,还是很痛苦的。我是遇到过了。我们搞技术的,当然得自己学着解决现在的痛点。
为了不重复造轮子,当然得看看现在市面上是否有已经实现过的,如果有,那自然是拿来即用。
首先,说说一些在线版的PDF图片转文字,对文件大小有限制为2M(似乎有很多的文件处理都是限制在这个数),超过了便要收费了。
第二,那就是WPS的PDF图片转文字了。别说大小限制了,直接是收费。
该平台限制调用次数, 作为个人开发者来说,基本上是够用了。
Java SDK文档使用说明: https://ai.baidu.com/docs#/OCR-Java-SDK/top
不清楚的,可以去看文档。
逻辑思路: 读取PDF文件,然后读取PDF中包含的图片,将图片传给百度AI平台去进行识别,返回结果解析。
省略....(相信大家都会哈)