python爬虫（1） - 代码天地

python爬虫（1）

编程语言 2019-05-05 19:02:34 阅读次数: 0

版权声明：本文为博主原创文章，欢迎转载。如有问题，欢迎指正。 https://blog.csdn.net/weixin_42172261/article/details/89846264

爬虫就是模拟客户端（浏览器）发送网络请求，获取响应，按照规则提取数据的程序

url = 请求协议+网站域名+资源的路径+参数

浏览器请求url地址：当前url对应的响应+js+css+图片—>elemennts中的内容
爬虫请求url地址：当前url对应的响应
elements的内容和爬虫获取到的url地址的响应不同，爬虫中需要以当前url地址对应的
响应为准提取数据

当前url地址对应的响应在哪里：
(1)从network中找到当前url地址，点击response
(2)在当前网页上右键显示网页源码

http、https
http：超文本传输协议
以明文的形式传输
效率较高，但是不安全
https:http+ssl(安全套接字层)
传输之前数据先加密，之后解密获取内容
效率较低，但是安全

get请求和post请求的区别
get请求没有请求体，post有，get请求把数据放在url地址中
post请求常用于登录注册
post请求携带的数据量比get请求大、多，常用语传输大文本的时候

http协议之请求
1.请求行
2.请求头
user-agent(用户代理)：对方服务器能够通过user-agent知道当前请求对方资源
的是什么浏览器。如果需要模拟手机版的浏览器发送请求，
对应的就需要把user-agent改成手机版。
cookie：用来存储用户信息，每次请求会被携带上发送给对方的浏览器
要获取登录后才能访问的页面
对方的服务器会通过cookie来判断我们是否是一个爬虫。
3.请求体
携带数据
get请求没有请求体
post请求有请求体
http协议之响应
1.响应头
set-cookie：对方服务器通过该字段设置cookie到本地
2.响应体：url地址对应的响应

猜你喜欢

转载自blog.csdn.net/weixin_42172261/article/details/89846264

python爬虫1 - 爬虫概要

Python 爬虫之路(1)

Python 爬虫笔记1

python 爬虫小结1

Python——爬虫学习1

【Python】爬虫-1

python—网络爬虫（1）

python 爬虫学习1

Python爬虫1

python爬虫入门（1）

python爬虫_1

Python爬虫闯关-1

python爬虫1 简介

python爬虫介绍1

Python爬虫-Selenium（1）

Python爬虫-速度（1）

Python:关于爬虫(1)

Python---爬虫1

python爬虫小结1

python爬虫(1)电影

python爬虫（1）

python爬虫环境1

Python爬虫 Day 1

python爬虫基础（1）

python爬虫学习1

python爬虫笔记1

python 爬虫1

python 爬虫的使用（1）

[Python]爬虫学习1

Python网络爬虫-1

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)