一周学会 python 爬虫_1

今天开始我将简单介绍一下网络爬虫,并开始带大家学习如何写爬虫

一、爬虫介绍

1、什么是爬虫?

你可以把互联网想想成一个巨大的蜘蛛网,而爬虫就是一个小蜘蛛在网的各个节点中穿梭。 就像探测机器一样,基本操作就是模拟人去浏览各个网站,浏览数据,查看信息。

2、爬虫可以做什么?

(1)抢火车票:

这应该是爬虫行业中使用量最大,很多抢票软件每秒对12306扫数千数万次。

(2)刷浏览量:

爬虫重灾区应该是微博无疑了,爬虫代码指向微博的某一个接口,可以获取用户的微博列表,微博动态,等等信息。

有的人用爬虫指挥机器人,来打开某人的微博进行点赞、评论或留言。也就是微博上所谓的僵尸粉(去年某坤微博转发过亿次还记得吗)。

还有很多更“好玩”的用处,这里就不废话了

二、正式开始学习

想写爬虫,首先要了解 URL:

统一资源定位符(Universal Resource Locator),简单说就是表示资源的地址(我们说某个网站的网址就是 URL)。

1、urllib.request.urlopen()函数

urllib 是一个软件包,收集了几个用于处理URL的模块 :
.
urllib.request : 用于打开和阅读URL
.
urllib.error : 包含由引发的异常 urllib.request
.
urllib.parse : 用于解析URL
.
urllib.robotparser : 用于解析robots.txt文件

urllib.request—用于打开URL的可扩展库

urllib.request.urlopen(url,data = None[ timeout,] *,cafile = None,capath = None,cadefault = False,context = None##打开url,字符串或 Request 对象

data:访问URL时传输的数据

timeout:参数以秒为单位,检测是否超时

# Time:2020/03/11 1:07
# environment:IDLE
>>> import urllib.request
>>> response=urllib.request.urlopen("http://www.baidu.com")
>>> type(response)
<class 'http.client.HTTPResponse'>
# 返回 HTTPResponse 类型数据

2、实例检测某网站的编码

>>> import chardet
>>> import urllib.request
>>> url = input('input address:')
# 输入网址
>>> response = urllib.request.urlopen(url)
# urllib.request.urlopen信息传给response
>>> infor = response.read()
# 返回获取到的页面内容
>>> encode = chardet.detect(infor)['encoding']
>>>print(encode)
input address:http://www.baidu.com
utf-8

3、检测网站状态

“200”则说明网站正常

“404”就说明不正常

>>> import urllib.request
>>> response=urllib.request.urlopen("http://www.baidu.com")
>>> code=response.getcode()
>>> print(code)
200



今天晚上一直看 LOL 直播,现在有点撑不住了,都凌晨一点半了

早起还要上网课

上完网课再更

发布了27 篇原创文章 · 获赞 59 · 访问量 7363

猜你喜欢

转载自blog.csdn.net/qq_45504119/article/details/104779309
今日推荐