使用selenium将网页保存为MHTML格式 - 代码天地

使用selenium将网页保存为MHTML格式

编程语言 2023-06-25 15:01:38 阅读次数: 0

最近在做网页分析的时候偶然有需求将网页保存为MHTML格式，这样可以最大程度的保留网页的样式以及图片信息，搜索寻找整理过后得到如下代码

其中，pagelist.txt文件内容如下：

邮箱,qq邮箱,https://mail.qq.com/
邮箱,阿里邮箱,https://mail.aliyun.com/alimail/auth/login
邮箱,163邮箱,https://mail.163.com/
邮箱,新浪邮箱,https://mail.sina.com.cn/
搜索引擎,百度,https://www.baidu.com/
搜索引擎,搜狗,https://www.sogou.com/
搜索引擎,bing,https://www.bing.com/
商城,淘宝,https://world.taobao.com/
商城,小米商城,https://www.mi.com/shop
商城,京东,https://www.jd.com/
商城,唯品会,https://www.vip.com/

保存代码如下

from selenium import webdriver
import csv
import os

# 构造webdriver
driver_path = r"C:\Program Files\Google\Chrome\Application\chromedriver.exe"
driver = webdriver.Chrome(driver_path)


def save_page(kind, name, url):
    driver.get(url)
    # 执行chrome dev命令获得mhtml文件内容
    res = driver.execute_cdp_cmd('Page.captureSnapshot', {
    
    })

    # 生成文件夹
    save_path = f'source/{
      
      kind}/{
      
      name}.mhtml'
    if not os.path.exists(os.path.dirname(save_path)):
        os.makedirs(os.path.dirname(save_path))
    # 保存到本地
    with open(save_path, 'w', newline='') as sf:
        sf.write(res['data'])


if __name__ == '__main__':
    # 打开所有网页列表
    with open("pagelist.txt", mode='r', encoding='utf-8') as f:
        csv_reader = csv.reader(f)
        for line in csv_reader:
            print(line)
            save_page(line[0], line[1], line[2])

    driver.quit()

猜你喜欢

转载自blog.csdn.net/qq_46311811/article/details/128632254

使用selenium将网页保存为MHTML格式

网页保存mhtml格式

使用selenium将网页保存网页截图，长截图，html文件，mhtml文件

将 html 网页保存为图片

Matlab将mat格式数据保存为txt格式

使用安全浏览器将网页保存为pdf的方法步骤

如何将网页保存为PDF文件

html2canvas 将网页保存为图片

火狐浏览器将网页保存为pdf

Chrome将网页保存为图片、PDF

python 将数据保存为excel的xls格式

将CAD图纸保存为PDF格式

将tflearn的模型保存为pb，给TensorFlow使用

Python抓取网页并保存为PDF

如何把网页保存为PDF

snapshot把网页保存为图片

将对象保存为XML格式

numpy array保存为nii格式

将bitmap保存为文件

将Numpy数组保存为图像

将canvas保存为图片的方法

将控件保存为图片

Matlab—将绘图保存为视频

WPF将控件保存为图片

将矩阵保存为csv文件

将vtkImageData保存为体文件

js 将页面保存为图片

vue——将页面保存为图片

将网页完美保存为PDF（附EP数据地图教程PDF）

谷歌插件EpubPress 将网页保存为电子书

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)