基于C#从PDF文档中提取文本

在PDF文档中,内容通常由文本形成。如果读者认为内容对他们有用或者可以作为模板,他们可能需要从PDF中提取文本并保存为其他格式文档。

Spire.PDF为用户提供从PDF文档中提取文本并将文本保存为txt的功能。该程序指南演示了如何通过Spire.PDF轻松快速地使用C#/ VB.NET提取文本的方法。

第1步:加载PDF文档

声明一个新的PDF文档,然后使用document.LoadFromFile()方法获取我们要提取文本的文档。传递给此方法的参数是文件名字符串。

[C#]

PdfDocument document = new PdfDocument();
document.LoadFromFile(@"E:\work\C pointer.pdf");

第2步:从PDF中提取文本

声明一个新的StringBuilder内容,它代表一个可变的字符串。然后,使用content.Append()方法在StringBuilder中附加PDF中的提取文本。在此示例中,从第一页提取文本。

[C#]

StringBuilder content = new StringBuilder();
content.Append(document.Pages[0].ExtractText());

第3步:保存并启动提取的文本

定义文件名字符串。然后,使用File.WriteAllText()方法创建一个新文件并在其中写入指定的字符串然后关闭文件。传递给它的参数是文件名字符串和内容字符串。最后,启动此保存的文件。

[C#]

String fileName = "TextFromPDF.txt";
File.WriteAllText(fileName, content.ToString());
System.Diagnostics.Process.Start("TextFromPDF.txt");

注意:如果要从所有页面中提取文本,请使用以下句子。

[C#]

foreach (PdfPageBase page in document.Pages)
{
  content.Append(page.ExtractText());
}

有效的Screeshot:

Spire.PDF是一个PDF文档创建组件,使您的.NET应用程序无需使用Adobe Acrobat即可读取,编写和操作PDF文档。现在,新版本增加了Silverlight平台,使其更加强大。

猜你喜欢

转载自blog.csdn.net/qqqqqqqqqq198968/article/details/85091265
今日推荐