前言：

在初步了解到正则表达式之后，今天我们学习一下关于爬虫的理论及最基本的爬去！

1，http协议

http 超文本传输协议互联网上传输数据的一种规范 1.特点支持的数据格式比较广泛，json/text/html/xml/data 传输速度快无状态的协议，第一次请求与第二次请求没有关系 2，http协议请求报文和响应报文请求报文：发请求时所携带的一种信息 1),请求行（请求方式grt或post，www.baidu.com，http/1.1版本） 2，请求头：键值对，设置此次请求的相关配置信息 HOST请求的主机地址， accetp:所接受的文件类型 user_agent：请求表示请求体：发送给服务端的一些数据客户端向服务端发送信息响应报文状态行（请求成功或失败），状态码，http协议版本响应头 connect-type服务器返回问数据类型 connect-length 服务器返回的数据长度 server 服务器的类型 expires：过期时间响应体响应体里面是服务器向客户端返回的数据 3.http协议的请求方法GET POST 如果只是从服务器端获取数据，使用GET请求如果要上传重要数据，使用POST请求在选用GET或POST时，但有时会根据接口文档给出的要求进行选择

2，urllib模块

使用爬虫的代码语句，通常要用到如下几个模块

from urllib import request
from urllib.request import urlopen
from urllib.parse import urlencode

获取某个网站元素

url = 'http://zz.58.com'
url = 'https://www.douban.com/'
# 调用request类的urlopen函数打开某个地址
res = request.urlopen(url)
html = res.read().decode('utf-8')
print(html)

请求的方式（GET ,POST）

req = request.Request('https://www.douban.com/')
res = urlopen(req)
print(res.read().decode('utf-8'))
# get_method 得到此次请求的方式（GET或者POST）
print(req.get_method())
# data被声明成了一个@property属性
# 用于向请求中添加是数据或者获取数据
req.data = 'name=zhangsan&password=123'
print('此次请求方式为：',req.get_method())

urlencode（）函数

# urlencode函数可以将字典对象转化为查询字符串
# 每一对键值之间用&连接，可以实现中文编码
# 因为url地址中不允许出现中文，必须经过编码才能实现
url = 'https://mail.qq.com'
args = urlencode(user_dict)
print(type(args))
print(args)

3，设置请求头

通常HTTP消息包括客户机向服务器的请求消息和服务器向客户机的响应消息。这两种类型的消息由一个起始行，一个或者多个头域，一个只是头域结束的空行和可选的消息体组成。HTTP的头域包括通用头，请求头，响应头和实体头四个部分。每个头域由一个域名，冒号（:）和域值三部分组成。域名是大小写无关的，域值前可以添加任何数量的空格符，头域可以被扩展为多行，在每行开始处，使用至少一个空格或制表符。

常用语法

# urllib设置请求头
from urllib.request import Request,urlopen
url = 'https://www.baidu.com'
# 参数一：请求的地址
# 参数二：设置请求头
req = Request(url,headers={
    # 服务器通过user-agent字段判断是通过什么方式访问的
    # user-agent 设置用户标识
    # python爬虫默认的user-agent的值是：python-urllib/3.6.5
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0',
    'Referer':'https://www.baidu.com'
    # referer:用于标识当前是通过哪一个网址入口访问的url
    # 服务器在读取referer的值的时候，会判断当前的url访问是不是通过正常的网址入口进入的

})
res = urlopen(req)
print(res.read().decode('utf-8'))

#1.判断user-agent是否是一Python开头的，如果是就禁止访问
# 2.并判断一个频繁请求是不是同一个ip发出的，这时候服务器会限制
# 解决方法：使用代理ip

4，爬虫与反爬虫的含义

#########爬虫=====================
1,概念
自动批量获取网站数据的程序
2，爬虫的目的
1）。获取数据，用于填充公司数据库
2）。通过爬虫数据制作搜索引擎
3）。通过爬虫数据进行数据采集和分析
==================反爬虫===============
概念：在服务器端使用的一种技术手段阻止程序的爬行，对网站数据进行保护

设置访问头访问糗事百科

一个简单的设置请求头访问网站的操作

from  urllib.request import Request,urlopen
url = 'http://www.qiushibaike.com'
req = Request(url,headers={
     'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0',
     'Referer':'https://www.qiushibaike.com'
})
res = urlopen(req)
print(res.read().decode('utf-8'))

今天简单了解一下基础，明天继续加油干！

python基础之爬虫基础理论

前言：

1，http协议

2，urllib模块

3，设置请求头

4，爬虫与反爬虫的含义

设置访问头访问糗事百科

猜你喜欢