只需2行python代码，轻松将PDF转换成Word - 代码天地

只需2行python代码，轻松将PDF转换成Word

编程语言 2023-09-18 20:00:06 阅读次数: 0

1. pdf2docx功能

- 解析和创建页面布局
  - 页边距
  - 章节和分栏 (目前最多支持两栏布局)
  - 页眉和页脚 [TODO]

- 解析和创建段落
  - OCR 文本 [TODO] 
  - 水平（从左到右）或竖直（自底向上）方向文本
  - 字体样式例如字体、字号、粗/斜体、颜色
  - 文本样式例如高亮、下划线和删除线
  - 列表样式 [TODO]
  - 外部超链接
  - 段落水平对齐方式 (左/右/居中/分散对齐)及前后间距

- 解析和创建图片
  - 内联图片
    - 灰度/RGB/CMYK等颜色空间图片
    - 带有透明通道图片
    - 浮动图片（衬于文字下方）

- 解析和创建表格
  - 边框样式例如宽度和颜色
  - 单元格背景色
  - 合并单元格
  - 单元格垂直文本
  - 隐藏部分边框线的表格
  - 嵌套表格

- 支持多进程转换

pdf2docx同时解析出了表格内容和样式，因此也可以作为一个表格内容提取工具。

2. 限制

目前暂不支持扫描PDF文字识别
仅支持从左向右书写的语言（因此不支持阿拉伯语）
不支持旋转的文字
基于规则的解析无法保证100%还原PDF样式

3. 安装

pip install pdf2docx

4. 案例

from pdf2docx import parse

pdf_file = '/path/to/《Python接口自动化测试》.pdf'
# word文件不需要提前创建，会自动创建
docx_file = 'path/to/《Python接口自动化测试》.docx'

# convert pdf to docx
parse(pdf_file, docx_file)

PDF文件：

Word文件（整体转换还行，部分地方格式有点点问题）：

猜你喜欢

转载自blog.csdn.net/FloraCHY/article/details/131578342

【Python】只需2行代码，轻松将PDF转换成Word（含示范案例）

只需2行python代码，轻松将PDF转换成Word

只需2行代码，轻松将PDF转换成Word

使用Python将pdf文件转换成word,csv

怎么将pdf转换成word

java将Word转换成PDF

如何将word文件转换成pdf文件，一键轻松搞定

如何将pdf转换成word？pdf文件是否可以转换成word？

使用pdf2docx轻松将PDF转换成docx

PDF转换成Word

将pdf文件转换成word,csv文件

如何批量将PDF转换成word文档？

linux环境php将word转换成pdf

如何将word转换成pdf文件格式

将pdf批量转换成word文件的方法

Java将Word/Excel转换成PDF—aspose工具

如何将pdf文件转换成word文档？

Python3，2行代码，多种方法，直接把网页内容转换成PDF文档和图片。

python如何使用最简单的方式将PDF转换成Word？

python将代码转换成网页

pdf怎么转换成word？三招教你轻松搞定pdf转换

五个免费的pdf转换器，轻松解决pdf怎么转换成word

Pdf如何转换成word文档，只需几步就可完成

如何将CAD图纸转换成彩色，只需几步即可轻松搞定！

[pdf格式转换word格式免费]pdf怎么转换成word？教你一分钟将PDF转换成word文档

一行代码将列表转换成字符串（python实现）

只需6行代码，Python将PPT转为Word！

Python将PDF文件转换成PNG的方案

使用Python将PDF转换成图片

Python将图片批量转换成pdf

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)