多种文档的文本抽取工具:DocToText

jopen 11年前

多种文档的文本抽取工具:DocToText

SILVERCODERS DocToText是一个强大的开源免费工具,用于抽取多种文档格式中的文本内容。它包含一个控制台应用和C/C++工具包, 允许嵌入到其他应用程序中实现文本提取功能。

它支持的文档格式包括:
MS Word (DOC), MS Excel (XLS, XLSB), MS PowerPoint (PPT), Rich Text Format (RTF), OpenDocument (also known as ODF and ISO/IEC 26300, full name: OASIS Open Document Format for Office Applications): text documents (ODT), spreadsheets (ODS), presentations (ODP), graphics (ODG), Office Open XML (ISO/IEC 29500, also called OOXML, OpenXML or MSOOXML) documents: MS Word (DOCX), MS Excel (XLSX), MS PowerPoint (PPTX), iWork formats (PAGES, NUMBERS, KEYNOTE), OpenDocument Flat XML formats (FODP, FODS, FODT), Portable Document Format (PDF), Email files (EML) and HyperText Markup Language (HTML)。

提取的文本可用于搜索,索引,归档等。

DocToText不仅可以从文档中抽取文本内容,还可以提供嵌在odt, doc, docx 或 rtf文件中的注释,读取元数据如作者,最后修改时间和页数。

项目主页:http://www.open-open.com/lib/view/home/1389147082562