PDF文档遵循一定的规范,例如精确定位了每个字符出现在页面上的坐标、根据坐标绘制的各种形状(线、矩形、曲线等)。所以,用PDF格式传输和打印文档可以保证格式的一致性,不会像Word那样因为渲染引擎的不同而出现格式错乱、多页少页等问题。
Word文档则是一种流式布局,元素之间的相对距离决定了其呈现在页面上的最终位置。因此适合编辑内容,前文内容的修改自动促发后续文档布局的更新。
PDF转Word是一个古老的话题,其难点在于建立从PDF基于元素位置的格式到Word基于内容的格式的映射。
PDF文档实际并不存在段落、表格的概念,PDF转Word要做的就是将PDF文档中“横、竖线条围绕着文本”解析为Word的“表格”,将“文本及下方的一条横线”解析为“文本下划线”,等等。
pdf2docx支持Windows和Linux平台,要求Python版本>=3.6。
pdf2docx安装方式:
pip?install?pdf2docx
pdf2docx使用
from?pdf2docx?import?Converter
思路如下
-
获取pdf文件路径。
-
过滤出当前文件夹中所有的pdf文件。
-
提取pdf文件名和后缀名。
-
文件名+'docx’拼接重组word文件(改变格式不变文件名)。
-
使