是否有任何工具以类似于Acrobat的OCR功能的方式自动化扫描PDF文件的OCR? [关闭]

Modified on: Tue, 26 Jun 2018 12:33:00 +0800

首选开源,但不是必需的。

我有Adobe Acrobat 8​​,并且非常喜欢OCR功能,它基本上可以在扫描文档的顶部放置一层看不见的OCR文本。因此,您在屏幕上看到的是原始扫描文档,但结果是可搜索的。

我正在寻找的是一种自动化此过程的方法。我目前有一些脚本用于处理和存档扫描文件,我正在寻找一些我可以直接插入这个批处理过程的东西,以类似于我用Acrobat做的方式进行OCR。

欢迎所有建议,谢谢!

最佳答案

我在公司文档存档项目中实现了这一点。扫描的文件是tif文件(单页)。然后使用Cuneiform创建单个tif的特定文件。然后使用hocr2pdf输出PDF文件。如果有多个扫描页面,我使用gs将PDF组合成一个PDF文档。工作得非常好,OCR足以满足我们的需求,并且可以在任何PDF查看器中搜索。

作者:xeon

相关问答

添加新评论