在Python中操作PDF文件

你们一定都熟悉PDF是什么。实际上,它们是最重要且使用最广泛的数字媒体之一。 PDF代表可移植文档格式。 它使用.pdf扩展名。 它用于可靠地显示和交换文档,而与软件,硬件或操作系统无关。

PDF由Adobe发明,现在是国际标准化组织(ISO)维护的开放标准。 PDF可以包含链接和按钮,表单字段,音频,视频和业务逻辑。

在本文中,我们将学习如何执行各种操作,例如:

  • 从PDF提取文本
  • 旋转PDF页面
  • 分割PDF

安装

我们将使用第三方模块PyPDF2。

PyPDF2是一个构建为PDF工具包的python库。 它具有以下能力:

  • 提取文档信息(标题,作者等)
  • 逐页拆分文档
  • 逐页合并文档
  • 裁剪页面
  • 将多个页面合并为一个页面
  • 加密和解密PDF文件
  • 以及更多!

要安装PyPDF2,请从命令行运行以下命令:

pip install PyPDF2

在Python中使用PDF文件

此模块名称区分大小写,因此请确保y为小写,其他所有内容均为大写。 本教程/文章中使用的所有代码和PDF文件都在这里。

1.从PDF文件中提取文本

让我们尝试以块的形式理解上面的代码:

pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

在这里,我们创建PyPDF2模块的PdfFileReader类的对象,并传递pdf文件对象并获得pdf阅读器对象。

print(pdfReader.numPages)

numPages属性提供pdf文件中的页数。例如,在我们的例子中,它是455(请参见输出的第一行)。

pageObj = pdfReader.getPage(0)

现在,我们创建一个PyPDF2模块的PageObject类的对象。 pdf阅读器对象具有getPage()函数,该函数将页码(起始索引为0)作为参数并返回该页对象。

print(pageObj.extractText())

Page object具有函数extractText(),用于从pdf页面中提取文本。

pdfFileObj.close()

最后,我们关闭pdf文件对象。

注意:虽然PDF文件非常适合以易于人们打印和阅读的方式来布置文本,但要用软件将其解析为纯文本并不是一件容易的事。因此,从PDF提取文本时,PyPDF2可能会出错,甚至根本无法打开某些PDF。不幸的是,您对此无能为力。 PyPDF2可能无法使用某些特定的PDF文件。

2、旋转PDF页面

在Python中使用PDF文件

与上述代码有关的一些重要点:

  • 对于旋转,我们首先创建原始pdf的pdf阅读器对象。

pdfWriter = PyPDF2.PdfFileWriter()

旋转的页面将被写入新的pdf。为了写入pdf,我们使用PyPDF2模块的PdfFileWriter类的对象。

for page in range(pdfReader.numPages):
        pageObj = pdfReader.getPage(page)
        pageObj.rotateClockwise(rotation)
        pdfWriter.addPage(pageObj)

现在,我们迭代原始pdf的每一页。我们通过pdf阅读器类的getPage()方法获取页面对象。现在,我们通过页面对象类的rotationClockwise()方法旋转页面。然后,通过传递旋转的页面对象,使用pdf writer类的addPage()方法将页面添加到pdf writer对象。

newFile = open(newFileName, 'wb')
pdfWriter.write(newFile)
pdfFileObj.close()
newFile.close()

现在,我们必须将pdf页面写入新的pdf文件。首先,我们打开新文件对象,并使用pdf writer对象的write()方法向其中写入pdf页面。最后,我们关闭原始的pdf文件对象和新的文件对象。

3、分割PDF文件

输出将是三个新的PDF文件,分别为拆分1(第0,1页),拆分2(第2,3页),拆分3(第4页末尾)。

上面的Python程序中没有使用新的函数或类。 使用简单的逻辑和迭代,我们根据传递的列表拆分创建了传递的pdf拆分。

猜你喜欢

转载自www.linuxidc.com/Linux/2019-12/161741.htm