PyPDF2读取PDF文件内容保存到本地TXT - 代码天地

PyPDF2读取PDF文件内容保存到本地TXT

其他 2018-06-13 23:57:21 阅读次数: 3

利用PyPDF2读取PDF文件内容保存到本地TXT

from PyPDF2.pdf import PdfFileReader
import pandas as pd

def Pdf_to_txt(pdf):

for i in range(0, pdf.getNumPages()):
    title = []
    lin1, lin2, lin3, lin4, lin5, lin6, lin7, lin8 = [], [], [], [], [], [], [], []
    extractedText = pdf.getPage(i).extractText()
    text = extractedText.split('\n')
    num = 0
    for lin in text:
        if num == 0:
            title.append(lin)
        elif num == 1:
            lin1.append(lin)
        elif num == 2:
            lin2.append(lin)
        elif num == 3:
            lin3.append(lin)
        elif num == 4:
            lin4.append(lin)
        elif num == 5:
            lin5.append(lin)
        elif num == 6:
            lin6.append(lin)
        elif num == 7:
            lin7.append(lin)
        elif num == 8:
            lin8.append(lin)
            num = 0
        num += 1
    Lin_num = len(lin8)
    data = {'Lin1': lin1[:Lin_num], 'Lin2': lin2[:Lin_num], 'Lin3': lin3[:Lin_num], 'Lin4': lin4[:Lin_num], 'Lin5': lin5[:Lin_num], 'Lin6': lin6[:Lin_num], 'Lin7': lin7[:Lin_num], 'Lin8': lin8[:Lin_num]}
    df = pd.DataFrame(data, columns=['Lin1', 'Lin2', 'Lin3', 'Lin4', 'Lin5', 'Lin6', 'Lin7', 'Lin8'])
    file_name = title[0] + '_page' + str((i + 1))
    df.to_csv('tool/pdf解析/%s.txt' % file_name, index=False, sep='\t')

if name == ‘main‘:
filename = ‘E:/SVN/采集框架V2/analyse_code/政策/pdf/con026465.pdf’
pdf = PdfFileReader(open(filename, “rb”))
Pdf_to_txt(pdf)

猜你喜欢

转载自blog.csdn.net/luzaofa/article/details/80526608

PyPDF2读取PDF文件内容保存到本地TXT

Pdfminer读取PDF文件内容保存到本地TXT

利用PyPDF2删除PDF文件首页

Python：使用pypdf2合并、分割、加密pdf文件。

通过Python的PyPDF2库合并多个pdf文件

PyPDF2读取文件只能得到‘\n’的问题

Python应用【PDF处理-pypdf2】

PyPDF2 合并PDF文档

PyPDF2 pdf 文件写入提示如下错误:PyPDF2.utils.PdfReadError: Illegal character in Name Object

Python从txt文件中读取特定的内容，并保存到新的txt文件中

Python 深入浅出 - PyPDF2 处理 PDF 文件

实用代码Python（二）：使用PyPDF2融合多个PDF文件

Python编程：pypdf2和pdfplumber获取pdf文件的页数

Python利用PyPDF2库获取PDF文件总页码

python常用库自动化办公类 —— PyPDF2（处理pdf文件）

python将签名自动插入到PDF文件(PyPDF2)

PyPDF2的使用

【Python军火库】PyPDF2：操纵PDF的利器

通过Python的PyPDF2库提取pdf中的文字

通过Python的PyPDF2库提取pdf中的图片

python之PyPDF2:操作PDF文档示例详解

Python读取有空行的txt文件+将内容分割保存到列表中

使用PyPDF2结合pdfminer拆分PDF，并提取关键字重命名拆分出来的文件

[转]PyPDF2详解

Python读取文件目录,并保存到txt文件

HTML页面(博客内容)转为PDF保存到本地

【Python】将print输出的内容保存到txt文件中

python 将print输出的内容保存到txt文件中

python.pdf 利用python PyPDF2 实现pdf操作全集

pdf各种处理 PDF 的实用代码：PyPDF2、PDFMiner、pdfplumber

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)