使用C#阅读pdf内容，并对其进行提取 - 代码天地

使用C#阅读pdf内容，并对其进行提取

其他 2020-02-18 15:50:50 阅读次数: 0

有很多语言都可以对pdf内容进行提取，我提取pdf文件的目的主要是为了对pdf内容进行分析。

查找了不少这方面的资料，很多都是语焉不详。

我使用VS的nugut进行查找，以pdf为关键词，找到了很多的类库可以处理该问题。综合一切判断，选择iText为基础进行分析。

确定了Itext之后，查阅相关文档，得到其获取内容的代码如下：

//创建阅读器，Item是文件路径
                PdfReader pdfReader = new PdfReader(item);
                //获取文档内容
                PdfDocument pdfDoc = new PdfDocument(pdfReader);
                string strContent = string.Empty;
                //对每一页内容进行提取
                for (int page = 1; page <= pdfDoc.GetNumberOfPages(); page++)
                {
                    ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
                    string pageContent = PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(page), strategy);
                    //将每一页内容放入字符串中
                    strContent+=pageContent.Replace("\n","");
                }

                //关闭读取工具
                pdfDoc.Close();
                pdfReader.Close();

就这么愉快地把需求实现啦。非常感谢itext作者的辛勤付出。

猜你喜欢

转载自www.cnblogs.com/zhulinmails/p/12326447.html

使用C#阅读pdf内容，并对其进行提取

使用python提取英语pdf内容并翻译

C#从PDF文档中提取文本

C# 根据链接提取div内容

C# Pdf转Png,提取Pdf中的图片

C#读取中文PDF中的内容

php抓取图片进行内容提取解析，文字性pdf进行内容文字提取解析

使用C#基于ComPDFKit SDK快速构建PDF阅读器

小白入门级-基于C#在Windows平台使用ComPDFKit 开发PDF阅读器

C#使用PDF控件打开PDF

C# 对PDF文件的使用

使用Python提取PDF文件中指定页面的内容

C# 如何提取PDF文本和图片

基于C＃从PDF文档中提取文本

python提取pdf文本内容

pdfminert提取PDF中文内容

使用PDF编辑器进行PDF合并与PDF页面提取

C# Winform 使用 PuppeteerSharp 进行网页截图、生成pdf等操作

C#，WPF中使用多文本显示数据，并对其数据进行关键字高亮等操作

使用C#开发pdf阅读器初探（基于WPF，没有使用开源库）

【教程】Spire.PDF教程：C# 如何提取 PDF 文档中的文本和图片

C#使用iTextSharp操作PDF文件

C#使用wkhtmltopdf，把HTML生成PDF

C#下对PDF文件进行电子图片签名

C#对TXT文件内容进行增删改操作

C#自动设置三维数组并对其进行排序

Apache PDFBox 提取原 pdf 内容存入新的 pdf 文件

使用C#交互生成代码之提取属性

Mysql高性能pdf阅读内容整理

C# 使用接口进行排序

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)