开源光学字符识别工具

jopen 12年前

Alison Neville 写道 "纸张在许多地方已日益失宠,无纸化办公谈论 40 多年,办公环境正限制纸山的生成。而过去几年,无纸化办公的概念发生了显着的转变。在计算机软件的帮助下,包含大量重要管理数据和资讯的文档可以更方便的以电子形式储存。扫描文档的好处不纯粹是存档理由。为了访问基于纸张的信息和将信息整合进数字工作流,光学字符识别(OCR)技术至关重要。选择正确的 OCR 工具要基于特定需求而定,例如在线 OCR 服务对某些人有用,但可能存在隐私问题和文件大小限制。OCR 软件非大众产品,因此开源替代相对于商业级重量级产品相对较少,再加上 OCR 软件需要先进的算法将扫描的图像正确翻译成实际的文字,而图像不仅仅含有文字,它还包含布局、图形和表格,可能会跨越多页。优秀的开源 OCR 软件包括:最早由惠普开发的开源 OC 引擎 TesseractOCRopusCuneiformLios,等。

来自: Solidot