文本内容提取Python库:textract

jopen 10年前

textract 是一个能够用于从各种文档中提取文本内容 Python 库。

# some python file  import textract  text = textract.process("path/to/file.extension")

当前支持:

项目主页:http://www.open-open.com/lib/view/home/1407202145926