python 处理word文档方法整理

其他 2020-06-21 11:24:29 阅读次数: 0

方法一：python-docx模块

使用python-docx模块，通过其中的Document函数可以读取word文档，然后可以借助document对象的相关属性、方法来获取文档中想要的信息或者编辑文档。

‘add_heading’,
‘add_page_break’,
‘add_paragraph’,
‘add_picture’,
‘add_section’,
‘add_table’,
‘core_properties’,
‘element’,
‘inline_shapes’,
‘paragraphs’,
‘part’,
‘save’,
‘sections’,
‘settings’,
‘styles’,
‘tables’

简单示例

from docx import Document
 input_document = Document(filename)  #读取word文件
 tables = input_document.tables # 获取文件中的所有表格

读取文件时可能存在的错误

错误信息

KeyError: “There is no item named ‘word/NULL’ in the archive”

在这里插入图片描述
对于上述错误信息，今天又查找了下错误原因和解决方式，突然发现网上几乎没有人搜索这个报错信息，今天看到一条信息是关于word文档的简述：

大约在2008年以前，Office产品中Word用.doc文件格式，这种二进制格式很难与其他软件兼容。
为了跟上时代，微软采用类XML格式标准定义其新版Word文件.docx。
.docx实际上是一个zip的压缩文件

方法二：解压-解析的方式

根据对上述word的简述，根据word（.docx）文件的格式，因此我们可以通过遵循如下步骤进行正文信息的提取：

解压.docx文件
用BeautifulSoup解析word/document.xml提取正文信息

代码示例如下：

from zipfile import ZipFile
from bs4 import BeautifulSoup

document=ZipFile(r'test.docx')
xml=document.read("word/document.xml")
wordObj=BeautifulSoup(xml.decode("utf-8"))
texts=wordObj.findAll("w:t")
for text in texts:
    print(text.text)

后记
还有什么新的方法，评论区欢迎探讨互动学习。

猜你喜欢

转载自blog.csdn.net/weixin_42521211/article/details/106428503

python 处理word文档方法整理

Python处理PDF和Word文档常用的方法

Python处理PDF和Word文档常用的方法（二）

python对word文档表格的处理

python处理word文档中run的详解

6月8日 Python处理PDF和Word文档常用的方法

程序生成word与PDF文档的方法(python)

python处理word文档，如何提取文档中的题目与答案

Python技巧篇：如何巧妙运用Python处理Word文档

python十三章处理PDF和Word文档

python读写word文档

python Word 文档

python操作word文档

word文档的python解析

python 生成word文档

python的word文档操作

Python让文档处理变得轻松：如何快速替换Word文档中的关键字

用python批量读取word文档并整理关键信息到excel表格

（转）用python批量读取word文档并整理关键信息到excel表格

吴裕雄--天生自然python学习笔记：python处理word文档

【Python百宝箱】从Word到Markdown：Python文档处理大揭秘

Python处理word文件

python处理word

python读写word、pdf文档

python给word文档添加标题

利用python操作word文档

python写文档（word\Excel）

Word处理控件Aspose.Words功能演示：在 Python 中将 Word 文档转换为 PNG、JPEG 或 BMP

2021-01-26 Python自动化办公-处理word文档

python自动化与文档处理（word, excel, html）3个小程序

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)