python爬虫(1)

版权声明:本文为博主原创文章,欢迎转载。如有问题,欢迎指正。 https://blog.csdn.net/weixin_42172261/article/details/89846264

爬虫就是模拟客户端(浏览器)发送网络请求,获取响应,按照规则提取数据的程序

url = 请求协议+网站域名+资源的路径+参数

浏览器请求url地址:当前url对应的响应+js+css+图片—>elemennts中的内容
爬虫请求url地址:当前url对应的响应
elements的内容和爬虫获取到的url地址的响应不同,爬虫中需要以当前url地址对应的
响应为准提取数据

当前url地址对应的响应在哪里:
(1)从network中找到当前url地址,点击response
(2)在当前网页上右键显示网页源码

http、https
http:超文本传输协议
以明文的形式传输
效率较高,但是不安全
https:http+ssl(安全套接字层)
传输之前数据先加密,之后解密获取内容
效率较低,但是安全

get请求和post请求的区别
get请求没有请求体,post有,get请求把数据放在url地址中
post请求常用于登录注册
post请求携带的数据量比get请求大、多,常用语传输大文本的时候

http协议之请求
1.请求行
2.请求头
user-agent(用户代理):对方服务器能够通过user-agent知道当前请求对方资源
的是什么浏览器。如果需要模拟手机版的浏览器发送请求,
对应的就需要把user-agent改成手机版。
cookie:用来存储用户信息,每次请求会被携带上发送给对方的浏览器
要获取登录后才能访问的页面
对方的服务器会通过cookie来判断我们是否是一个爬虫。
3.请求体
携带数据
get请求没有请求体
post请求有请求体
http协议之响应
1.响应头
set-cookie:对方服务器通过该字段设置cookie到本地
2.响应体:url地址对应的响应

猜你喜欢

转载自blog.csdn.net/weixin_42172261/article/details/89846264