.NET文本/数据抽取框架:Toxy
jopen
10年前
Toxy是一个.NET文本/数据抽取框架类似于Java中的 Apache Tika。它支持许多流行的格式比如:docx, xlsx, xls, pdf, csv, txt, epub, html 等。
统一的数据结构
对于文档,数据结构被称为 ToxyDocument.
对于电子表格,数据结构被称为 ToxySpreadsheet.
For emails, the data structure is called ToxyEmail.
For business cards, the data structure is called ToxyBusinessCard.
For DOM based structue, the data structue is called ToxyDom.