python爬虫01-使用urllib爬取网页 - 代码天地

python爬虫01-使用urllib爬取网页

其他 2020-03-03 20:17:31 阅读次数: 0

 1 import urllib.request  # 导入模块
 2 import urllib.parse
 3 
 4 # 将网页赋给变量file
 5 file = urllib.request.urlopen("http://www.baidu.com")
 6 
 7 # 读取网页
 8 data = file.read()  # 读取全部内容，结果作为一个字符串变量
 9 dataline = file.readline()  # 读取一行的内容
10 datalines = file.readlines()  # 读取全部内容，赋值给一个列表
11 
12 # 存储网页
13 fhandle = open("./1.html","wb")  # 以wb方式打开文件
14 fhandle.write(data)  # 写入
15 fhandle.close()  # 关闭文件
16 
17 # 另一种方式,直接存储网页 使用urlretrieve
18 filename = urllib.request.urlretrieve("http://www.baidu.com",filename="./2.html")
19 urllib.request.urlcleanup()  # 清除urlretrieve产生的缓存
20 
21 #其他常用内容
22 file.info()  # 输出对应网页的info
23 file.getcode()  # 获取当前爬取网页的状态码，若返回值为200则正确，反之错误
24 file.geturl()  # 获取爬取网页的url
25 urllib.parse.quote("http://www.baidu.com")  # 对url中的非AscII码进行编码
26 urllib.parse.unquote("http%3A//www.baidu.com")  # 解码，恢复成原来的网址

猜你喜欢

转载自www.cnblogs.com/buzhihuoyu/p/12404235.html

python爬虫01-使用urllib爬取网页

【爬虫】01 urllib 爬取网页

python快速使用Urllib爬取网页

爬虫入门实践之使用Urllib爬取网页

【Python 网络爬虫】使用 urllib 爬取网页源码、图片和视频

Python3 使用urllib 爬取网页

使用Python爬虫爬取简单网页（Python爬虫入门）

Python使用urllib,urllib3,requests库+beautifulsoup爬取网页

Python 爬虫爬取网页

python爬虫01-爬取静态页面（百度贴吧）

Python3爬虫之urllib携带cookie爬取网页的方法

Python爬虫实践~BeautifulSoup+urllib+Flask实现静态网页的爬取

爬虫01-爬取约会吧图片

Python使用爬虫ip爬取动态网页

Urllib库爬取网页

Python使用标准库urllib模拟浏览器爬取网页内容

使用webdriver+urllib爬取网页数据

Python3爬虫(1)_使用Urllib进行网络爬取

urllib的使用-python爬虫（二）- 合法爬取，拒绝牢饭。

Python爬取网页图片01

python爬虫爬取淘宝网页

python爬虫爬取京东网页

Python爬虫爬取网页的例子

Python——网络爬虫（爬取网页图片）

python 爬虫（爬取网页的img并下载）

python爬虫——爬取网页的中文

Python爬虫入门——爬取网页图片

python爬虫爬取网页图片

Python爬虫-1——爬取网页

python爬虫：批量爬取网页图片

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)