python中利用python-docx批量提取docx中的图片 - 代码天地

python中利用python-docx批量提取docx中的图片

编程语言 2023-07-25 19:14:58 阅读次数: 0

由于工作中需要从大量docx文档中提出图片，于是到网上搜索，找了一大堆都是分析xml文件并提取的，太过于复杂，实际上有更简单的方法，只是python-docx并未开发这个功能，但通过debug方式还是能找到资源信息，直接进行提取另存就好了。

本文为原创，如需转载请注明出处。

    for file in os.listdir(filePath):
        try:
            #跳过非docx文件
            if ".docx" not in file:
                continue
            # 创建imgPath
            subImgPath = imgPath + re.sub(".docx","",file)
            if not os.path.exists(subImgPath):
                os.makedirs(subImgPath)

            doc = docx.Document(filePath + file)        #打开文件
            for rel in doc.part._rels:
                rel = doc.part._rels[rel]               #获得资源
                if "image" not in rel.target_ref:
                    continue
                imgName = re.findall("/(.*)",rel.target_ref)[0]
                with open(subImgPath + "/" + imgName,"wb") as f:
                    f.write(rel.target_part.blob)
            UI.currentFile.setText("当前文件：" + imgName)
        except:
            continue

代码中subImagPath是为了按文件名创建目录而生成的一个变量。直接利用python-docx已解析xml结构，从中提出相关数据进行图片保存，此方法速度十分快，不用打开word，速度根据各位电脑情况而定，如果同时再结合多进程的话，感觉可以飞上天。

猜你喜欢

转载自blog.csdn.net/wudechun/article/details/101353852

python中利用python-docx批量提取docx中的图片

使用python批量提取docx文档中的图片

利用python-docx更新word中的表格内容

使用python-docx在文档中插入图片

python-docx与docx的区别

使用python-docx提取文档尺寸

python-docx

python-docx操作

python-docx杂记

python-docx库

python-docx使用

python-docx 如何使图片居中？

python-docx操作word文件（*.docx）

Python-docx操作集合

python-docx库的使用

Word 神器 python-docx

python-docx的表格样式

python-docx表格样式

Python 中的 docx 模块

使用python-docx读取doc,docx文档

使用python-docx处理word.docx文件（5）

使用python-docx处理word.docx文件（4）

使用python-docx合并多个纯文本docx文档

python-docx把dataframe表格添加到word文件中

python-docx template 操作word文档

使用python-docx生成Word文档

【python-docx】学习学习咯

python-docx的表格行宽设置

python-docx模块初认识

Python-docx对EXCEL、Word的操作

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)