文档文本内容提取Java类库,Apache Tika 1.1 发布,

fmms 13年前
     Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。    <br />    <br />    <p>Apache Tika 1.1 发布了,该版本包含很多改进和 bug 修复,详情请看<br /> <a href="/misc/goto?guid=4958334339069385399" target="_blank">http://www.apache.org/dist/tika/CHANGES-1.1.txt</a></p>    <p>下载地址:<br /> <a href="/misc/goto?guid=4958334339976364541">http://www.apache.org/dyn/closer.cgi/tika/apache-tika-1.1-src.zip</a></p>