Python提取PDF中表格数据 - 代码天地

Python提取PDF中表格数据

其他 2020-01-23 10:35:30 阅读次数: 0

从 PDF 表格中获取数据是一项痛苦的工作。不久前，一位开发者提供了一个名为 Camelot 的工具，使用三行代码就能从 PDF 文件中提取表格数据。

项目地址：https://github.com/camelot-dev/camelot

项目作者提供了三种安装方法。首先，你可以使用 Conda 进行安装，这是最简单的。

conda install -c conda-forge camelot-py

最流行的安装方法是使用 pip 安装。

pip install camelot-py[cv]

还可以从项目中克隆代码，并使用源码安装。

git clone https://www.github.com/camelot-dev/camelot
cd camelot
pip install ".[cv]"

我选择用pip安装包，装好包后就来读取PDF文件了

import camelot
tables = camelot.read_pdf('1.pdf')

然后就报错了。。

然后安装ghostscript

依然报错

最后在这个贴子上了解决方法https://github.com/atlanhq/camelot/issues/282

需要在ghostscript官网下载exe文件安装，下载地址：https://www.ghostscript.com/download/gsdnld.html

安装后就不报错了

接着读取pdf，发现读取的表是空的，就去阅读了一下说明，发现如果不设置页面，默认读取第一页

然后找到PDF中表格对应的页面，再执行代码

效果还不错，然后我试了下另外一个PDF文档，又出现了问题。。表格又是空的

对比了两个文档，发现pdf1中选中页中有两个表格，且是三线表，而pdf2中只有一个表格，还是传统的表格。在pdf1中发现有一页只有一个三线表，就试了下那一页，发现仍然不能读取，那么问题应该就是camelot只能读取表格中的数据，读取不了三线表中的数据。

如果想把读取表格中的数据保存下来，可以参考如下代码

>>> tables[0].df # get a pandas DataFrame!
>>> tables.export('foo.csv', f='csv', compress=True) # json, excel, html, sqlite，可指定输出格式
>>> tables[0].to_csv('foo.csv') # to_json, to_excel, to_html, to_sqlite， 导出数据为文件
>>> tables
<TableList n=1>
>>> tables[0]
<Table shape=(7, 7)> # 获得输出的格式
>>> tables[0].parsing_report
{
    'accuracy': 99.02,
    'whitespace': 12.24,
    'order': 1,
    'page': 1
}

冥更

发布了69 篇原创文章 · 获赞 28 · 访问量 3万+

私信关注

猜你喜欢

转载自blog.csdn.net/qq_24852439/article/details/102473859

Python提取PDF中表格数据

通过Python的pdfplumber库提取pdf中表格数据

Python 解析PDF文件中表格数据

python提取pdf中的表格

python提取pdf表格数据并保存到excel中

python pdfplumber用于pdf表格提取

Python提取PDF表格及文本！（附源码）

Camelot:从pdf中提取表格数据

python提取excel表格数据

又学到一招，只需三行 Python 代码轻松提取 PDF 表格数据

Java 读取PDF中表格的工具

Python 批量提取 Word 中表格内容，一键写入 Excel

Python 办公小助手：读取 PDF 中表格并重命名

PDFPlumber使用入门+python实现PDF中表格转化为Excel的方法

用python提取PDF表格内容保存到excel

[Python工具]pdf表格提取camelot安装教程

在Java中使用tabula提取PDF中的表格数据

python提取word表格中数据

【python自动化办公（10）】python利用pdfplumber库提取PDF文字以及表格内容（复杂表格字段数据的处理）

Python 识别图片中表格

R语言批量将PDF中表格，转化为excel

elemet UI 中表格数据的排序操作

数据库中表格管理

Python爬取网页中表格数据并导出为Excel文件

python提取pdf

Ace Admin中表格按钮的使用方法——表格导出为xls、pdf，表格打印预览等

【PYTHON,PDF】1.利用python.pypdf2 进行文字表格提取

PDF提取表格的网页工具——Excalibur

提取PDF里面的EXCEL表格

【python办公自动化】将Word文本和Pdf表格数据提取并整合到同一个Exeel下的多sheet中

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)