Python 解析PDF文件中表格数据 - 代码天地

Python 解析PDF文件中表格数据

其他 2018-09-29 12:17:08 阅读次数: 0

PDF文件表格样例
在这里插入图片描述
Python解析结果

Tika解析样例
1、TEXT格式

		Tika tika = new Tika();
        tika.setMaxStringLength(100 * 1024 * 1024);
        try (InputStream stream = new FileInputStream(new File("600060_2018_zB.pdf"))) {
            return tika.parseToString(stream);
        }

Text格式解析结果
在这里插入图片描述
2、XHTML格式

		
  		ContentHandler handler = new ToXMLContentHandler();
        AutoDetectParser parser = new AutoDetectParser();
        Metadata metadata = new Metadata();
        try (InputStream stream = new FileInputStream(new File("600060_2018_zB.pdf"))) {
            parser.parse(stream, handler, metadata);
            return handler.toString();
        }

XHTML格式解析结果
在这里插入图片描述
解析PDF常用组件（PdfBox、iText、Tika等）都无法将表格数据解析成有规则的格式。解析后格式基本是TEXT、XHTML等导致处理表格数据变的非常复杂，基本需要全枚举加正则表达式才能处理个70-80%。有人说用自然语言处理与机器学习不知道效果怎么样。

猜你喜欢

转载自blog.csdn.net/tmaczt/article/details/82876018

Python 解析PDF文件中表格数据

Python提取PDF中表格数据

通过Python的pdfplumber库提取pdf中表格数据

Python爬取网页中表格数据并导出为Excel文件

python实现表格图片转excel格式文件，excel表格取数据，表格PDF取数据

Python 办公小助手：读取 PDF 中表格并重命名

PDFPlumber使用入门+python实现PDF中表格转化为Excel的方法

python中查看.db文件中表格的名字及表格中的字段

用python解析pdf中的文本与表格【pdfplumber的安装与使用】

Python：解析PDF文本及表格——pdfminer、tabula、pdfplumber 的用法及对比

Python 识别图片中表格

python读取PDF文件中文本、表格、图片

Python 快速合并PDF表格转换输出CSV文件

《python数据处理》pdf文件解析模块：pdfminer和pdfplumber

Python：解析PDF文本及表格——pdfminer、tabula、pdfplumber 的用法及对比 Python：读取 .doc、.docx 两种 Word 文件简述及“Word 未能引发事件”错误

python提取pdf表格数据并保存到excel中

利用python获取pdf文件元数据

python提取pdf中的表格

python解析PDF文档

Python导出MySQL数据库中表的建表语句到文件

深入学习python解析并读取PDF文件内容的方法

python数据库中表的介绍

【Python】解析PDF文档文本和表格内容的四大方法介绍

【Python】表格文件处理

将页面中表格数据导出excel格式的文件（vue）

Poi中表格数据的导出和读取Excel文件

python修改pdf文件

Python 读取PDF文件

Python读取PDF文件

python操作pdf文件

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)