.NET下读取PDF文本总结
fefef123
10年前
在.NET下读取PDF文本用到的类库主要有两个:PDFBox和iTextSharp。
1、下载PDFBox
下载地址:http://sourceforge.net/projects/pdfbox/
2、引用动态链接库
解压缩下载的PDFBox,找到其中的Bin目录,需要在项目中添加引用的dll文件有:
IKVM.GNU.Classpath.dll
PDFBox-0.7.3.dll
FontBox-0.1.0-dev.dll
IKVM.Runtime.dll
将以上4个文件引用到项目中,在文件中需要引入以下2个命名空间:
using org.pdfbox.pdmodel;
using org.pdfbox.util;
3、API的使用方法看代码:
using org.pdfbox.pdmodel; using org.pdfbox.util; public void pdf2txt(FileInfo file,FileInfo txtfile) { PDDocument doc = PDDocument.load(file.FullName); PDFTextStripper pdfStripper = new PDFTextStripper(); string text = pdfStripper.getText(doc); StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312")); swPdfChange.Write(text); swPdfChange.Close(); }
iTextSharp,其实很多时候都是用于生成PDF,但是他读取PDF的能力也不差,使用如下:
1、下载iTextSharp
下载地址:http://sourceforge.net/projects/itextsharp/
2、引用动态链接库
解压缩下载的压缩包里面的itextsharp-dll-core.zip,得到itextsharp.dll,在项目中添加引用itextsharp.dll即可
在文件中需要引入以下3个命名空间:
using iTextSharp;
using iTextSharp.text;
using iTextSharp.text.pdf;
3、API的使用方法看代码:
private string OnCreated(string filepath) { try { string pdffilename = filepath; PdfReader pdfReader = new PdfReader(pdffilename); int numberOfPages = pdfReader.NumberOfPages; string text = string.Empty; for (int i = 1; i <= numberOfPages; ++i) { byte[] bufferOfPageContent = pdfReader.GetPageContent(i); text += System.Text.Encoding.UTF8.GetString(bufferOfPageContent); } pdfReader.Close(); return text; } catch (Exception ex) { StreamWriter wlog = File.AppendText(System.AppDomain.CurrentDomain.SetupInformation.ApplicationBase+"\\mylog.log"); wlog.WriteLine("出错文件:" + e.FullPath + "原因:" + ex.ToString()); wlog.Flush(); wlog.Close();return null; } }