【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇一——爬虫基础

其他 2020-09-23 10:05:50 阅读次数: 0

1. 爬虫基础

1.1 概念

爬虫是一个模拟人类请求网站行为的程序，自动请求网页、并把数据抓取下来然后使用一定的规则提取有价指的数据。

1.2 爬虫应用场景：

搜索引擎（百度或谷歌）
伯乐在线
惠惠购物助手
数据分析
抢票软件等

1.3 为什么要用Python写爬虫？通过对比多种高级语言：

2. HTTP 协议介绍

2.1 HTTP 协议

指的是超文本传输协议，Hyper Text Transfer Protocol，是一种发布和接受HTML的页面的方法。服务器端口号是80端口。

HTTPS协议是HTTP协议的加密协议，在HTTP下加入了SSL层，服务器端口号是443端口。

2.2 URL

2.3 常用请求Method

HTTP 有8种请求方式，常用的有 get 请求和 post 请求

有的网站和服务器为了做反爬虫机制，也经常不按常理出牌，如将一个本来使用get方法的请求改成post请求，这种时候要视情况而定。

2.4 常见的请求头参数

HTTP协议中向服务器发送一个请求，数据分成三个部分，第一个在url中，第二个在body中，第三个是head。

user-agent ：浏览器名称，标识身份，伪装爬虫，请求网页时通过这个参数可以知道请求是从哪种浏览器发送；如果 user-agent = python，对有反爬虫机制的网站来说，可以轻易判断请求时爬虫。
referer：表明当前数据从哪个url来的，也可以做反爬虫技术
cookie：用啦判断多词请求时标识是否是来自同一个人，标识身份

2.5 常见的响应状态码

扫描二维码关注公众号，回复： 11792508 查看本文章

猜你喜欢

转载自blog.csdn.net/weixin_44566432/article/details/108529784

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇一——爬虫基础

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇七——爬虫解析库XPath

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇三——网络代理

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇十五——数据存储：excel文件处理

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇五——Cookie加载与保存

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇四——cookie原理讲解

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇十六——数据存储：MySQL

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇八——爬虫解析库 bs4 BeautifulSoup

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇六——爬虫基本库的使用2 （requests 库）

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇二——爬虫基本库的使用1（urllib）

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇十四——数据存储：CSV文件读/写

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇十二——正则实战：赶集网租房信息

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇十一——正则表达式和re模块

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇十——爬取豆瓣电影TOP250（实战）

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇九——搜索文档树find_all 和 select方法

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇十三——数据存储：JSON 字符串格式

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇十二——正则表达式匹配案例：手机号/邮箱/url/身份证

150讲轻松搞定Python网络爬虫-第五章：爬虫进阶

150讲轻松搞定Python网络爬虫-第四章：数据存储

150讲轻松搞定Python网络爬虫-第三章：数据解析

python网络爬虫学习笔记之一爬虫基础入门

Python网络爬虫基础(一)

Python 网络爬虫篇

Java写网络爬虫基础篇（一）

笔记：《Python网络爬虫》

python之路 -- 爬虫一篇 -- 爬虫基础

python 网络爬虫（一）

python网络爬虫一

python网络爬虫（一）

30个小时搞定Python网络爬虫

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)