Urllib库爬取网页

其他 2018-05-07 15:37:20 阅读次数: 4

1、urllib.request.urlopen

用于爬取网页：

file = urllib.request.urlopen("https://www.baidu.com")

注意：1、文件的读取：

1.按行读取方式readline()

readline()每次读取文件中的一行，需要使用永真表达式循环读取文件。但当文件指针移动到文件的末尾时，依然使用readline() 读取文件将出现错误。因此程序中需要添加1个判断语句，判断文件指针是否移动到文件的尾部，并且通过该语句中断循环。

2.多行读取方式readlines()

使用readlines()读取文件，需要通过循环访问readlines()返回列表中的元素。函数readlines()可一次性读取文件中多行数据。

3.一次性读取方式read()读取文件最简单的方法是使用read()，read()将从文件中一次性读出所有内容，并赋值给1个字符串变量。

2、文件的写入保存：

1、python基本文件操作：write：

fhandle = open("D:/1.html","wb")
fhandle.write(data)
fhandle.close()

2、urllib.request.urlretrieve(url , filename = 本地文件地址)

filename = urllib.request.urlretrieve("https://www.baidu.com" , filename = "D:/1.html")

3、urllib.request.urlcleanup():

加在上述的代码后，用于清除urlretrieve造成的缓存垃圾。

猜你喜欢

转载自blog.csdn.net/qq_40276310/article/details/80110900

Urllib库爬取网页

Python使用urllib,urllib3,requests库+beautifulsoup爬取网页

python快速使用Urllib爬取网页

【爬虫】01 urllib 爬取网页

Python使用标准库urllib模拟浏览器爬取网页内容

使用webdriver+urllib爬取网页数据

爬虫入门实践之使用Urllib爬取网页

python爬虫01-使用urllib爬取网页

urllib|requests爬取网页Ajax，以豆瓣电影为例

Python3 使用urllib 爬取网页

python自带库urllib和lxml库进行网页爬取(固定代码格式，快速上手)

urllib爬取图片

Python2 urllib2爬取网页一简单爬取

爬虫入门讲解（用urllib库爬取数据）

基于urllib2库的小说爬取

用urllib爬取页面

urllib实战----使用代理服务器爬取网页(021）

urllib基础-利用网站结构爬取网页-百度搜索

thon3爬虫之urllib携带cookie爬取网页的方法

Python3爬虫之urllib携带cookie爬取网页的方法

Python爬虫实践~BeautifulSoup+urllib+Flask实现静态网页的爬取

2.urllib包学习(反爬虫网页源码爬取)

【Python 网络爬虫】使用 urllib 爬取网页源码、图片和视频

python爬取网页

pyspider爬取网页

爬取静态网页

网页爬取

网页源码爬取

爬取网页图片

HttpClient爬取网页

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)