Python爬虫:基础知识

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/plychoz/article/details/88046587

http发送请求的方式
1、get请求
可带去参数给服务器,服务器返回完整的数据给我们
弊端:参数是明文,长度有限制

2、post请求
数据体没有限制
上传文件加密
服务器返回完整的数据给我们

3、put
4、delete
5、head

请求头信息:

Accept:文件格式
Accept-Encoding:编码格式
Connection:长链接keep-alive
Cookie:验证
Host:域名
Referer:标志从哪个页面跳转过来
User-Agent:存储了浏览器和用户的信息

爬虫
诸葛学院:互联网分析的平台
东湖大数据交易中心

爬虫价值:
1、买卖数据
2、数据分析 数据分析报告
3、流量(引流,打广告)
4、阿里指数、百度指数(百度搜索风云榜)

爬虫的合法性:
1、灰色产业
2、没有法律规定合不合法
3、是否可以爬取所有的数据
(1)普通用户权限 只能爬取非vip的视频
(2)vip客户权限可以爬取

重点:爬虫的工作原理
1、确认抓取目标的URL地址(自己找)
2、python的代码发送网络请求获取数据
3、解析获取到的数据(找新的目标url)
4、数据持久化

robots协议(是否允许其他爬虫)爬取某些内容
学习的是聚焦爬虫(不遵守robots协议)
爬虫和反爬虫作斗争,资源对等赢的永远是爬虫

 

猜你喜欢

转载自blog.csdn.net/plychoz/article/details/88046587