文本内容提取Python库:textract
jopen
10年前
textract 是一个能够用于从各种文档中提取文本内容 Python 库。
# some python file import textract text = textract.process("path/to/file.extension")
当前支持:
- .doc via antiword
- .docx via python-docx
- .eml via python builtins.
- .json via python builtins.
- .html via beautifulsoup4
- .pptx via python-pptx
- .pdf via pdftotext (default) or pdfminer
- .txt via python builtins.