使用PyPDF4提取pdf文件中的图片 - 代码天地

使用PyPDF4提取pdf文件中的图片

移动开发 2023-04-09 02:02:27 阅读次数: 0

首先，打开pdf文件, 检查是否加密:

import PyPDF4
pdf = PyPDF4.pdf.PdfFileReader("filename")
pdf.isEncrypted

如果pdf.isEncrypted返回False，说明未加密，可以继续操作；若返回True，则需要使用pdf.decrypt(password)解密后才能操作。

其次，找到图片所在页，使用pdf.getPage(pagenum)获取那一页（页码从0开始编号），这里返回的是一个字典。如：

pg = pdf.getPage(7)

在这里插入图片描述

从这里可以看出只有一张图片，存储在['/Resources']['/XObject']里，通过type查看返现pg['/Resources']['/XObject']['/Im8']是一个EncodedStreamObject,通过getData()方法可以获取它的数据，直接以二进制模式写入文件即可保存。

完整代码如下：

In [1]: import PyPDF4

In [2]: pdf = PyPDF4.pdf.PdfFileReader("pdffile.pdf")
PdfReadWarning: Xref table not zero-indexed. ID numbers for objects will be corrected. [pdf.py:1801]

In [3]: pdf.isEncrypted
Out[3]: False

In [4]: pg = pdf.getPage(7)

In [5]: pg.keys()
Out[5]: dict_keys(['/Type', '/Parent', '/MediaBox', '/Contents', '/Resources'])

In [6]: pg.values()
Out[6]: dict_values(['/Page', IndirectObject(901, 0), [0, 0, 514.4882, 665.7059], IndirectObject(917, 0), {
    
    '/XObject': {
    
    '/Im8': IndirectObject(15, 0)}, '/ProcSet': ['/ImageB']}])

In [7]: im8 = pg['/Resources']['/XObject']['/Im8'].getData()

In [8]: with open('im8.jpg', 'wb') as f:
   ...:     f.write(im8)
   ...:

In [9]:

猜你喜欢

转载自blog.csdn.net/Crazy_zh/article/details/105342573

使用PyPDF4提取pdf文件中的图片

使用PyPDF4和PIL修改PDF文件中的图片

通过Python的PyPDF2库提取pdf中的图片

Python处理doc||pdf的模块python-docx|pypdf4||pdfminer

通过Python的PyPDF2库提取pdf中的文字

怎么提取pdf文件中的图片

使用PyPDF2结合pdfminer拆分PDF，并提取关键字重命名拆分出来的文件

Python：使用pypdf2合并、分割、加密pdf文件。

使用pyPdf分割pdf文档

电脑中如何提取PDF文件中的图片

Python提取PDF中的图片

如何提取pdf中的图片

提取加密文件中的pdf

Aspose.Pdf使用教程：在PDF文件中添加图片

实用代码Python（二）：使用PyPDF2融合多个PDF文件

如何快速提取pdf中的图片呢?

Java 提取PDF文档中的图片

Python提取PDF中的文字和图片

Springboot使用pdfbox提取PDF图片

C# Pdf转Png,提取Pdf中的图片

如何将pdf文件中图片提取出来？

【PDF】使用python提取PDF里面的图片

Winform PDF 提取图片

pdf 图片提取

利用PyPDF2删除PDF文件首页

通过Python的PyPDF2库合并多个pdf文件

PDF编辑技巧：怎么提取PDF文件中的页面

pdf转图片、提取pdf文本、提取pdf图片

【PYTHON,PDF】1.利用python.pypdf2 进行文字表格提取

利用 Python PyPDF2库轻松提取PDF文本（及其他高级操作）

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)