C#读取中文PDF中的内容 - 代码天地

C#读取中文PDF中的内容

编程语言 2018-12-04 16:40:17 阅读次数: 0

从PDF中抓取相应的信息是数据处理常见的一个操作。但是由于PDF现在都是由国外技术人员开发的，有可能存在汉字编码问题。比如著名的 Spire.PDF 就对中文支持不好（如果有好的方法良好支持中文，欢迎告之，谢谢）。
好在总有支持的第三方，iTextSharp的PDF转换工具就可以很好地支持。用法也非常简单，主要核心代码如下所示。

		public string ExtractTextFromPDF(string pdffilename)
		{
			StringBuilder text = new StringBuilder();
			try
			{
				PdfReader pdfReader = new PdfReader(pdffilename);
				int numberOfPages = pdfReader.NumberOfPages;
				for (int i = 0; i < pdfReader.NumberOfPages; i++)
				{
					// Page number starts from 1.
					text.Append(iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(pdfReader, i + 1));
				}
				pdfReader.Close(); 
			}
			catch (Exception ex)
			{
				Console.WriteLine("Extracting text from the input PDf file error. Reason：" + ex.ToString());
			}
			return text.ToString();
		}

另附：itextsharp.dll 下载

猜你喜欢

转载自blog.csdn.net/weixin_43145361/article/details/84785741

C#读取中文PDF中的内容

C# 读取Xml文件中的中文

C# 读取并显示word文档中的内容

C#读取加载文件中的内容并修改保存

[转]C#中StreamReader读取中文出现乱码

如何使用Java读取PDF中的内容

C#连接MySQL时连接正常但是内容(中文信息)读取不出来

C# 读取PDF多级书签

C#和python读取pdf

C#读取剪贴板内容

C# winfrom 读取txt文本内容

C# 读取Word内容控件

C# 读取XML的CDATA节点内容.

c# 读取word表格内容并计数

Python读取PDF内容

C#中Cookies的读取

C#中读取文件

C#读取文件内容，在指定行插入内容

C#读取text内容并且于testbox中展现保留换行实现方法

C#基础 StreamWriter 读取内容，写到另外一个txt中

C#中，读取一个或多个文件内容的方法

【转载】 C#检测输入的内容中是否含有中文

C#读取pdf(pdfbox2.0.8.dll)

使用C#阅读pdf内容，并对其进行提取

C#中PDF文档操作类

C＃创建PDF中的导航按钮

C# 获取图片，Pdf中的文字

C#高级编程中文第七版.pdf

Java 读取PDF文本内容

python读取PDF文件内容

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)