版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/plychoz/article/details/88046587
http发送请求的方式
1、get请求
可带去参数给服务器,服务器返回完整的数据给我们
弊端:参数是明文,长度有限制
2、post请求
数据体没有限制
上传文件加密
服务器返回完整的数据给我们
3、put
4、delete
5、head
请求头信息:
Accept:文件格式
Accept-Encoding:编码格式
Connection:长链接keep-alive
Cookie:验证
Host:域名
Referer:标志从哪个页面跳转过来
User-Agent:存储了浏览器和用户的信息
爬虫
诸葛学院:互联网分析的平台
东湖大数据交易中心
爬虫价值:
1、买卖数据
2、数据分析 数据分析报告
3、流量(引流,打广告)
4、阿里指数、百度指数(百度搜索风云榜)
爬虫的合法性:
1、灰色产业
2、没有法律规定合不合法
3、是否可以爬取所有的数据
(1)普通用户权限 只能爬取非vip的视频
(2)vip客户权限可以爬取
重点:爬虫的工作原理
1、确认抓取目标的URL地址(自己找)
2、python的代码发送网络请求获取数据
3、解析获取到的数据(找新的目标url)
4、数据持久化
robots协议(是否允许其他爬虫)爬取某些内容
学习的是聚焦爬虫(不遵守robots协议)
爬虫和反爬虫作斗争,资源对等赢的永远是爬虫