Python3爬虫抓取网页的html 保存

其他 2019-03-01 09:31:05 阅读次数: 0

1. Python3爬虫保存抓取网页的html

REF: https://blog.csdn.net/u014453898/article/details/73459938

2017年06月19日 12:15:05 ZJE_ANDY 阅读数：1602

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/u014453898/article/details/73459938

下载网页html 通过使用 urllib库的urlretrieve()方法

直接下载某URL的HTML：

#-*- coding:utf-8 -*-
import urllib.request
url='http://www.163.com'
urllib.request.urlretrieve(url,'./htm2.txt')#保存在当前路径的htm2.txt中

urlretrieve()的第一个参数：表示要抓取的URL

第二个参数：表示抓取完HTML保存在哪个路径

2. Python3爬虫下载网页的html

REF:https://www.jb51.net/article/140540.htm

import urllib.request

def getHtml(url):
    html = urllib.request.urlopen(url).read()
    return html

def saveHtml(file_name, file_content):
    # 注意windows文件命名的禁用符，比如 /
    with open(file_name.replace('/', '_') + ".html", "wb") as f:
    # 写文件用bytes而不是str，所以要转码
        f.write(file_content)

aurl = "http://www.view.sdu.edu.cn/info/1003/75240.htm"
html = getHtml(aurl)
saveHtml("sduview", html)

print("下载成功")

猜你喜欢

转载自blog.csdn.net/liugaoxingliushi/article/details/87899441

Python3爬虫抓取网页的html 保存

java算法-网络爬虫抓取网页并保存

Python实现抓取HTML网页并以PDF文件形式保存的方法

Python抓取网页并保存为PDF

Python写爬虫——抓取网页并解析HTML

Python3 爬虫（一）-- 简单网页抓取

Python3简单爬虫抓取网页图片

python尝试动态网页抓取图片，并保存

python3获取指定网页，指定保存位置

用Python抓取网页HTML文档

Python3爬虫图片抓取

python3 urllib爬虫抓取记录

爬虫 python 正则匹配保存网页图片

Python3 抓取网页中的图片

基于python3 抓取贴吧图片与评论图片下载保存

python3爬虫(三)--抓取单个网页的文章标题以及其链接和抓取单个网页图片

python学习—保存网页到本地 html及pdf

【转载】Python3网络爬虫(一)：利用urllib进行简单的网页抓取

Python3网络爬虫(一)：利用urllib进行简单的网页抓取

Python3学习(34)--简单网页内容抓取（爬虫入门一）

Python3网络爬虫基本操作(二)：静态网页抓取

python3 利用正则获取网页中的想保存下来的内容

python3 使用BeautifulSoup爬取网页内容保存到csv

Python3 selenium保存网页base64编码图片

[Python][爬虫03]requests+BeautifulSoup实例:抓取图片并保存

Python爬虫实战：抓取并保存百度云资源

python3网络爬虫(抓取文字信息)

python3爬虫抓取链家上海租房信息

python3 爬虫抓取豆掰电影TOP 250

python3 爬虫抓取股市数据

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)