Python编程：读取pdf、pptx、docx、xlsx文件的页数

编程语言 2019-01-03 00:13:46 阅读次数: 0

版权声明：本文为博主原创文章，欢迎转载，请注明出处 https://blog.csdn.net/mouday/article/details/85618178

pdf

安装工具

pip install pdfplumber

代码示例

import pdfplumber
from pdfminer.pdfparser import PDFSyntaxError

def get_pdf_page(pdf_path):
    try:
        f = pdfplumber.open(pdf_path)
        page = len(f.pages)
    except PDFSyntaxError:
        page = 0
    return page

pptx

安装工具

 pip install python-pptx

代码示例

from pptx import Presentation

def get_pptx_page(pptx_path):
    try:
        p = Presentation(pptx_path)
        page = len(p.slides)
    except KeyError:
        page = 0
    return page

docx、xlsx

Word是流动分页的，文件内容本身并不存储分页结果。具体分页时断在哪里、最后分出多少页，都需要现场渲染所有的图文内容之后才能确定。

Word文件中仅包含了一行一行的文本，与页面设置中指定的页面尺寸。

Word每次打开文件时都会一行一行“摆放”文本数据，发现一页装不下了自动新开一页

所以，读取页数是不对的

参考

如何在 Linux 上使用 Python 读取 word 文件信息（如页数）？

Python编程：pypdf2和pdfplumber获取pdf文件的页数

猜你喜欢

转载自blog.csdn.net/mouday/article/details/85618178

Python编程：读取pdf、pptx、docx、xlsx文件的页数

python读取 xls，xlsx，csv，doc，docx，pdf 格式的文件

微信小程序 - 在线预览 Office 文件（doc / docx / xls / xlsx / ppt / pptx / pdf）

纯js判断文件流格式类型：pdf,doc,docx,xls,xlsx,ppt,pptx一次搞定！

读取pdf、docx、doc、ppt、pptx并转为txt

vue 预览docx、pdf、xls、xlsx文件

.docx，.doc，.pptx，.ppt，.xlsx，.pdf后缀文档图标不显示

前端vue3实现本地及在线文件预览（含pdf/txt/mp3/mp4/docx/xlsx/pptx）

OOXML-docx/xlsx/pptx利器

Python读取docx文件

使用POI将office（doc/docx/ppt/pptx/xls/xlsx）文件转html格式（附带源码）

vue项目,内网预览.xls .pptx .ppt .doc .docx .xlsx等格式的文件方法推荐

python: 读取.xlsx文件

python读取xlsx文件

vue实现本地预览word(docx)、excel(xlsx)、pdf文件

uniapp 在线预览各种格式文件(支持doc, xls, ppt, pdf, docx, xlsx, pptx格式) 适用于小程序 (解决了真机调试可以打开,发布体验版打不开的问题)(可设置文件名)

在线预览doc, docx, xls, xlsx, ppt, pptx

加更实现docx、xlsx、pptx在线预览

Vue通过微软官方链接预览pptx docx xlsx

C#Excel文件加密实现，支持xlsx、docx、pptx(C#/NET/Asp.Net)

docx pdf读取

用 python 来操作 docx， xlsx 格式文件（二）（使用 docx 库操作 docx 格式文件

python读取word文件【docx格式】

vue中修改下载文件的名字，例如docx，pdf，xlsx

vue 前端根据url在线预览pdf、docx、xlsx、txt、html文件

vue - - - - - 在线预览常见文件格式 .doc, .docx, .xls, .xlsx,.pdf,.ofd

学习使用php简单读取pdf文件总页数的方法

PHP简单读取pdf文件总页数的方法

Python编程：pypdf2和pdfplumber获取pdf文件的页数

vue3+Ts 开发H5项目在线浏览pdf/word/pptx/xlsx文件方法分享

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)