爬虫（1）——爬虫前奏 - 代码天地

爬虫（1）——爬虫前奏

其他 2020-04-13 20:42:18 阅读次数: 0

仅供自己学习

目录

一.什么是爬虫

二HTTP协议的介绍

三.抓包工具使用的网络请求

一.什么是爬虫

通俗理解：

一个模拟人类请求网站行为的程序。可以请求网页，并把数据抓取下来，然后用一定规则进行分析。

通用爬虫：类似于百度搜索，将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。

聚焦爬虫（需求）：会对内容进行筛选，是面向特定去求的一种网络爬虫程序。

准备工具：

python3.6

pycharm

二HTTP协议的介绍

什么是http和https协议：
http协议：中文意思是超文本传输协议。服务端口是80端口

https协议：是http协议的加密版本，在http下加入SSL层。服务端口是443端口。

在浏览器中发送http请求的过程：

url详解：

统一资源定位符

一个域名映射一个IP地址

现在的url已经可以自动把端口加上了

三.抓包工具使用的网络请求

常用的网页请求方法：

请求头常见参数：

2.referer:记录的是从哪个页面过来的。

3.cookie：判断是不是一个人，（我只记得清垃圾的时候清除过。）

常见的状态码：

Chorme抓包工具：

发布了35 篇原创文章 · 获赞 4 · 访问量 2338

私信关注

猜你喜欢

转载自blog.csdn.net/devilangel2/article/details/105107288

爬虫（1）——爬虫前奏

[Python] 1.爬虫-爬虫前奏

爬虫前奏

python爬虫--爬虫前奏

python网络爬虫前奏

爬虫前奏(一)

Python爬虫前奏

爬虫前奏——网络请求

爬虫前奏——代理ip的使用

网络爬虫之前奏002

网络爬虫之前奏001

Python网络爬虫之爬虫前奏

15.爬虫之前奏部分

python学习笔记4---（python网络爬虫-爬虫前奏）

爬虫1

爬虫（1）

爬虫(1)

爬虫（１）

爬虫--1

爬虫-1

网络爬虫前奏之实例爬取京东商品004

网络爬虫前奏之图片的爬取006

网络爬虫前奏之盗亦有道003

爬虫之路（1）：认识爬虫

爬虫开发.1爬虫介绍

python爬虫1 - 爬虫概要

爬虫开发_爬虫概述（1）

爬虫

爬虫-

爬虫。

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)