码力十足学量化|用Python将pdf文件转换为txt文件

pdf格式的文件必须用相应的pdf阅读器才能打开,而且一般的pdf阅读器打开pdf文件后并不支持编辑修改PDF文档的文字。如果可以把把pdf转化为txt文本文件,那么我们阅读编辑起来就容易的多。现在市场上已经有很多PDF转换程序,但是基本上需要付费。但是你只要学会了用Python来进行pdf文件转换为txt文件操作,仅仅只需要短短几行代码就可以搞定。废话不多说,直接上代码。
1)代码

import pdfplumber

path=r"..\requests\财务报表\\贵州茅台2021年半年度报告.pdf"
pdf=pdfplumber.open(path) # 打开PDF文件
pages=pdf.pages # 通过pages属性获取所有页的信息,此时pages是一个列表

text_all=[]
for page in pages:
    # 用extract_text()函数获取每页文本内容
    text=page.extract_text()
    text_all.append(text)

text_all="".join(text_all)
print(text_all)

# 将文件保存为txt文本格式
txt_file=open("贵州茅台2021年半年报报告.txt",mode='a',encoding='utf-8')
txt_file.write(text_all)
pdf.close()
  1. 输出效果
    在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/malishizu222/article/details/125106418