把pdf转换成文本 - 代码天地

把pdf转换成文本

其他 2018-07-21 05:10:31 阅读次数: 0

把pdf转换成文本的Python源代码

下面的python源代码，读取pdf文件内容(互联网上的或是本地的)，转换成文本，打印出来。这段代码主要用了一个第三方库PDFMiner3K把PDF读成字符串，然后用StringIO转换成文件对象。（源代码下载地址参看文章末尾的GitHub源）

from urllib.request import urlopen
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO
from io import open

def readPDF(pdfFile):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, laparams=laparams)

    process_pdf(rsrcmgr, device, pdfFile)
    device.close()

    content = retstr.getvalue()
    retstr.close()
    return content

pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")
outputString = readPDF(pdfFile)
print(outputString)
pdfFile.close()

如果PDF文件在你的电脑里，那就把urlopen返回的对象pdfFile替换成普通的open()文件对象。

猜你喜欢

转载自blog.csdn.net/jie1521836/article/details/81102584

把pdf转换成文本

[Java]代码实现图像转换成文本

PHP将富文本数据转换成文本、富文本清除标签

怎么把图片转换成文字

图片怎么转换成文字

链接转换成文字

语音怎么转换成文章

时间参数转换成文字

Excel科学计数法转换成文本完整显示

将Excel的单元格日期格式转换成文本格式

如何将excel中的日期和数字转换成文本

图片文字转换成文本怎么做？掌握这些小技巧就够了

ppt转换成pdf

PDF转换成图片

html转换成pdf

PDF转换成Word

图片转换成PDF

什么是扫描件PDF？扫描件PDF如何转换成可编辑文本？

需要得到二进制文件转换成文本文件的方式

语音识别：使用深度学习模型进行语音识别，例如将语音转换成文本。

如何将图片转换成文字

手机上如何把录音转换成文字

图片转换成文字并导出的方法

怎样将录制的语音转换成文字？

如何识别音频文件转换成文字

图片转换成文字的方法讲解

将图片转换成文字的方法

PNG图片转换成文字的操作教程

怎样将语音文件转换成文字

语音如何转换成文字的方法

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)