用Java语言编写的印刷体科技文档识别系统:MathOCR

jopen 9年前

MathOCR是一个用Java语言编写的印刷体科技文档识别系统,在GNU通用公共许可证版本3或(按你的意愿)更新版本下发布。

MathOCR具备基本的图形预处理、版面分析和字符识别能力,特别是能够识别数学公式。MathOCR可以不依赖于标准Java库以外的库而独立工作,但也可以作为Tesseract、GNU Ocrad或GOCR等OCR系统的前端。

MathOCR项目在2014年作为中山大学大学生创新训练计划项目《图片中数学公式的自动识别》的副产物而于2014年3月开始开发,同年9月发布首个版本,是少有的作为自由软件的印刷体数学公式识别系统。其后,在2014年12月至2015年4月又作为开发者的本科毕业论文项目加入了文档逻辑版面分析功能,从而扩展为一个印刷体科技文档识别系统。

项目主页:http://www.open-open.com/lib/view/home/1431671376591