【教程】Spire.PDF教程：C# 如何提取 PDF 文档中的文本和图片 - 代码天地

【教程】Spire.PDF教程：C# 如何提取 PDF 文档中的文本和图片

其他 2019-04-19 18:22:28 阅读次数: 0

Spire.PDF是一个专业的PDF组件，能够独立地创建、编写、编辑、操作和阅读PDF文件，支持 .NET、Java、WPF和Silverlight。

【下载Spire.PDF最新试用版】

文本和图片是PDF文档的重要组成部分。本文将介绍如何通过编程的方式使用Spire.PDF C#获取PDF文档中的文本和图片并保存到本地路径。

提取PDF文档中的文本

//实例化一个PdfDocument对象
PdfDocument doc = new PdfDocument();

//加载PDF文档
doc.LoadFromFile("测试文档.pdf");

//实例化一个StringBuilder 对象
StringBuilder content = new StringBuilder();

//提取PDF所有页面的文本
foreach (PdfPageBase page in doc.Pages)
{
    content.Append(page.ExtractText());
}

//将提取到的文本写为.txt格式并保存到本地路径
String fileName = "获取文本.txt";
File.WriteAllText(fileName, content.ToString());

提取 PDF 文档中的图片

//加载PDF文档
PdfDocument doc = new PdfDocument();
doc.LoadFromFile("测试文档.pdf");

List<Image> ListImage = new List<Image>();

for (int i = 0; i < doc.Pages.Count; i++)
{
    // 实例化一个Spire.Pdf.PdfPageBase对象
PdfPageBase page = doc.Pages[i];

    // 获取所有pages里面的图片
    Image[] images = page.ExtractImages();
    if (images != null && images.Length > 0)
    {
        ListImage.AddRange(images);
    }

}

// 将提取到的图片保存到本地路径
if (ListImage.Count > 0)
{
    for (int i = 0; i < ListImage.Count; i++)
    {
        Image image = ListImage[i];
        image.Save("image" + (i + 1).ToString() + ".png", System.Drawing.Imaging.ImageFormat.Png);
    }
  
}

效果图：

提取PDF文档中的文本和图片

查看冰蓝更多产品教程，为你推荐：

Spire.Doc系列教程>>

Spire.XLS系列教程>>

猜你喜欢

转载自blog.csdn.net/weixin_43746001/article/details/89381800

【教程】Spire.PDF教程：C# 如何提取 PDF 文档中的文本和图片

【教程】Spire.PDF教程：C# PDF 设置页边距和页面大小

【教程】Spire.PDF教程：如何给PDF添加背景颜色和平铺背景图

C# 如何提取PDF文本和图片

【教程】Spire.PDF教程：C# 为 PDF 添加平铺背景图

【教程】Spire.PDF教程：C# 添加或删除 PDF 页面，调整页面顺序

如何提取pdf中的图片

关于如何通过Maven仓库安装Spire.PDF for Java的示范教程

如何提取PDF中的页面？

C#从PDF文档中提取文本

如何快速提取pdf中的图片呢?

pdf转图片、提取pdf文本、提取pdf图片

如何合并、拆分、提取PDF文档页面

C# Pdf转Png,提取Pdf中的图片

Java 使用Spire.Pdf添加图片印章到PDF

C# 添加文本、图片到PDF文档（基于Spire.Cloud.PDF.SDK）

Java 提取PDF文档中的图片

基于C＃从PDF文档中提取文本

电脑中如何提取PDF文件中的图片

如何提取pdf中的图片？分享几个小妙招！

PDF控件Spire.PDF for .NET【转换】教程：将 XPS 转为PDF 格式

PDF控件Spire.PDF for .NET【转换】教程：将 HTML 转换为 PDF

PDF控件Spire.PDF for .NET【转换】教程：将图像转换为 PDF

PDF控件Spire.PDF for .NET【转换】演示：将PDF 文档另存为 tiff 图像

Python提取PDF中的文字和图片

pdf 图片提取

Winform PDF 提取图片

Python提取PDF中的图片

如何用Python批量提取PDF文本内容？

如何用Python从PDF文件中提取文本词汇

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)