基于C＃从PDF文档中提取文本 - 代码天地

基于C＃从PDF文档中提取文本

其他 2019-01-18 19:39:04 阅读次数: 0

在PDF文档中，内容通常由文本形成。如果读者认为内容对他们有用或者可以作为模板，他们可能需要从PDF中提取文本并保存为其他格式文档。

Spire.PDF为用户提供从PDF文档中提取文本并将文本保存为txt的功能。该程序指南演示了如何通过Spire.PDF轻松快速地使用C＃/ VB.NET提取文本的方法。

第1步：加载PDF文档

声明一个新的PDF文档，然后使用document.LoadFromFile（）方法获取我们要提取文本的文档。传递给此方法的参数是文件名字符串。

[C＃]

PdfDocument document = new PdfDocument();
document.LoadFromFile(@"E:\work\C pointer.pdf");

第2步：从PDF中提取文本

声明一个新的StringBuilder内容，它代表一个可变的字符串。然后，使用content.Append（）方法在StringBuilder中附加PDF中的提取文本。在此示例中，从第一页提取文本。

[C＃]

StringBuilder content = new StringBuilder();
content.Append(document.Pages[0].ExtractText());

第3步：保存并启动提取的文本

定义文件名字符串。然后，使用File.WriteAllText（）方法创建一个新文件并在其中写入指定的字符串然后关闭文件。传递给它的参数是文件名字符串和内容字符串。最后，启动此保存的文件。

[C＃]

String fileName = "TextFromPDF.txt";
File.WriteAllText(fileName, content.ToString());
System.Diagnostics.Process.Start("TextFromPDF.txt");

注意：如果要从所有页面中提取文本，请使用以下句子。

[C＃]

foreach (PdfPageBase page in document.Pages)
{
  content.Append(page.ExtractText());
}

有效的Screeshot：

Spire.PDF是一个PDF文档创建组件，使您的.NET应用程序无需使用Adobe Acrobat即可读取，编写和操作PDF文档。现在，新版本增加了Silverlight平台，使其更加强大。

猜你喜欢

转载自blog.csdn.net/qqqqqqqqqq198968/article/details/85091265

基于C＃从PDF文档中提取文本

C#从PDF文档中提取文本

java从pdf中提取文本

【教程】Spire.PDF教程：C# 如何提取 PDF 文档中的文本和图片

C++版PDF处理控件Aspose.PDF功能演示：使用C ++以编程方式从PDF文档中提取文本

C# 添加文本、图片到PDF文档（基于Spire.Cloud.PDF.SDK）

C# 如何提取PDF文本和图片

python从pdf文件中提取文本，并自动翻译

ChemDataExtractor:从PDF、HTM、文本等中提取化学数据

如何用Python从PDF文件中提取文本词汇

Python--从PDF中提取文本的方法总结

图像中提取文本

从文本中提取特定信息

【Python】从文本中提取数字

c#从相机拍摄的照片中提取拍摄时间

文档中提取汉字信息

C# 压缩PDF文档

从PDF和图像中提取文本，以供大型语言模型使用

9款免费的OCR工具，从扫描的PDF文档中提取文字

从html富文本中提取纯文本

C# Pdf转Png,提取Pdf中的图片

Camelot:从pdf中提取表格数据

基于pymupdf的PDF的文本、图片和表格信息提取

利用pyltp从文本中提取时间信息

从文档中提取关键字

C#添加PDF文档页眉

C#中PDF文档操作类

C# excel 转 PDF文档的

c#用iTextSharp生成pdf文档

c#如何解析PDF文档

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)