【Python | PDF】如何使用Python将PDF转换为HTML页面？ - 代码天地

【Python | PDF】如何使用Python将PDF转换为HTML页面？

企业开发 2022-05-09 20:47:12 阅读次数: 0

前言

最近想做一个小的功能，将PDF文字提取，并转换为HTML页面，但苦苦找寻没有合适好用简单的方法。Google一下，马上知道，接下来就是学习的结果，分享给大家，以免踩坑

含泪分享，希望大家喜欢，直接上代码

本文仅用于知识分享！

第一个版本，简单实现了HTML输出

import fitz
from tqdm import tqdm

def pdf2html(input_path,html_path):
    doc = fitz.open(input_path)
    for page in tqdm(doc):
        html_content = page.getText('html')
    print("开始输出html文件")
    with open(html_path, 'w', encoding='utf8', newline="") as fp:
        fp.write(html_content)

input_path = r'G:\back\pyfile\翻译\pdf_translate-master\3.pdf' # 如果报错 就用绝对路径
html_path = r'G:\back\pyfile\翻译\pdf_translate-master\input.html'
pdf2html(input_path,html_path)

第二个版本，优化了HTML输出的样式（做了居中对齐）

import fitz
from tqdm import tqdm


def pdf2html(input_path, html_path):
    doc = fitz.open(input_path)
    print(doc)
    html_content = "<!DOCTYPE html><html lang=\"en\"><head><meta charset=\"UTF-8\"><title>Title</title></head><body style=\"display: flex;justify-content: center;flex-direction: column;background: #0e0e0e;align-items: center;\">"
    for page in tqdm(doc):
        html_content += page.getText('html')
    print("开始输出html文件")

    html_content += "</body></html>"
    with open(html_path, 'w', encoding='utf8', newline="") as fp:
        fp.write(html_content)


input_path = r'/Users/guoyi/Desktop/report123.pdf'  # 如果报错 就用绝对路径
html_path = r'/Users/guoyi/Desktop/report123.html'
pdf2html(input_path, html_path)

安装

pip install PyMuPDF
或者pip3 install PyMuPDF

pip install tqdm
或者pip3 install tqdm

有任何疑问评论咨询我~

猜你喜欢

转载自blog.csdn.net/qq_28505809/article/details/124147552

【Python | PDF】如何使用Python将PDF转换为HTML页面？

使用Python将PDF转换为WORD

Python：将ipynb转换为html，md，pdf等格式

Python批量将ppt转换为pdf

Python 批量将 Word 转换为 PDF

Python代码批量将ppt转换为pdf

使用Python将HTML转成PDF

使用Python3将Markdown（.md）文本转换成 html、pdf

python 操作ppt转换为pdf

python如何使用最简单的方式将PDF转换成Word？

使用Python将pdf文件转换成word,csv

使用Python将PDF转换成图片

指定pdf的格式爬虫实战【3】Python-如何将html转化为pdf(PdfKit)

码力十足学量化|用Python将pdf文件转换为txt文件

python | 将pdf文件转换为图片，这一招就够了

Python将html转化为pdf

mac用python将html转为pdf

python转html页面为pdf

Python转换HTML为PDF方案合集

使用wkhtmltopdf将html页面转换为image或者pdf

如何使用Python将语音转换为文本

Python PDF转换为图片的解决方案

读取pdf中的表格转换为excel格式 (python)

python html 转 pdf

使用python批量将word转为pdf

使用Python将PDF转化为word

使用python将网页下载为pdf

使用Python将字典转换为CSV

使用python把html网页转成pdf文件

使用python制作pdf的格式转换程序

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)