爬虫的基本知识 - 代码天地

爬虫的基本知识

其他 2019-04-15 16:54:47 阅读次数: 0

1.浏览器的请求

url
- 在Chrome中点击检查，点到network
- url=请求的协议+网站的域名+资源的路径+参数
浏览器请求url地址
- 当前的url对应的响应+js+css+图片 ===>> elements中的内容
爬虫请求url地址
- 当前url地址对应的响应
elements的内容和爬虫获取到的url地址的响应不同，爬虫中需要当前的url地址对应的响应为准提取数据
当前的url地址对应的响应在哪里
- 从network中找到当前的url地址，点击response
- 在页面右键显示网页源代码

认识http和https

http：超文本传输协议
- 以明文的形式传输
- 效率更高，但是不安全
https：http + SSL（安全套接字层）
- 传输数据之前先进行加密，之后解密获取内容
- 效率较低，但是安全
get和post请求的区别
- get请求没有请求体,post有请求体,get把数据方法url地址中
- post请求常用于登录注册,传输大文本的时候
- post请求携带的数据量比get大，多
HTTP之请求
- 1、请求行
- 2、请求头
  - User-Agent: 用户代理：对方服务器用过User-Agent知道当前请求对方资源的是什么浏览器
    - 如果我们需要模拟手机版的浏览器发起请求，响应的，就需要把User-Agent改成手机版
  - Cookie: 用来存储用户信息的，每次携带上发送给对方的浏览器
    - 要获取登录后才能访问的页面
    - 对方的服务器会通过cookie判断我们是不是一个爬虫
- 3、请求体
  - 携带数据
  - get请求没有请求体
  - post请求有请求体
HTTP之响应
- 1、响应头
  - Set-Cookie: 对方服务器通过该字段设置cookie到本地
- 2、响应体
  - url地址对应的响应

猜你喜欢

转载自www.cnblogs.com/liudemeng/p/10711478.html

爬虫的基本知识

python爬虫基本知识

爬虫基本知识及简单生成爬虫

爬虫必备基本知识点

C#爬虫基本知识

爬虫学习笔记-requsets的基本知识。

python的爬虫基本知识介绍

爬虫的一些基本知识（1）

python—【爬虫】学习_1(基本知识篇）

python3爬虫开发 Scrapy的使用基本知识

微博爬虫基本知识了解（十一）

python爬虫✦基本知识与常用代码模块

进程基本知识

Tornado的基本知识

JDBC基本知识

遥感基本知识

recycleView基本知识

WIFI基本知识

CSS 基本知识

hadoop基本知识

tree 基本知识

ldap基本知识

Spring基本知识

测试的基本知识

Vim基本知识

Ajax基本知识

PRISM基本知识

股票基本知识

基金基本知识

mongodb基本知识

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)