python爬虫实战之旅（第一章：爬虫基础简介） - 代码天地

python爬虫实战之旅（第一章：爬虫基础简介）

其他 2021-03-27 10:55:31 阅读次数: 0

b站视频参考：
2020年python爬虫全套课程

本文下接第二章：爬虫开发-requests模块的学习

第一章：爬虫基础简介

1.1爬虫简介

1.1.1 什么是爬虫？

通过编写程序，模拟浏览器上网（爬取），然后让其去互联网上抓取数据的过程。

1.1.2 爬虫的价值

爬取的数据进行用于实际应用
就业、商业化

1.2爬虫合法性探究

法律不禁止
具有违法风险
爬虫可能抓取受到了法律保护的特定类型的数据或信息
爬虫干扰了被访问网站的正常运营

1.3爬虫初始深入

1.3.1爬虫的主要应用场景：

通用爬虫：抓取系统重要组成部分
聚焦爬虫：是建立在通用爬虫的基础之上，抓取的页面中特定的局部内容
增量式爬虫：检测网站中数据更新的情况，只会抓取网站中最新更新出来的数据。

1.3.2爬虫的矛盾

反爬机制：相关门户网站通过制定相应的策略或着技术手段，防止爬虫程序进行网站数据的爬取。
反反爬策略：爬虫程序可以通过制定相关的策略或者技术手段，破解门户网站中具备的反爬机制，从而可以获取门户网站的相关信息。

1.3.3robots.txt协议

robots协议（反爬虫协议）

也叫君子协议
协议中规定了网站中哪些数据可以被爬虫爬取哪些数据不可以被爬取
并不强硬
例如我们可以通过https://www.csdn.net/robots.txt访问csdn的反爬虫协议内容：

1.3.4 http&https协议

http协议：

概念：就是服务器与客户端进行数据交互的一种形式。

常用请求头头信息

User-Agent:
表示请求载体的身份标识
Connection：
请求完毕后，是断开连接还是保持连接
常用响应头信息
Connection-Type：服务器响应回客户端的数据类型

https协议：

安全的超文本传输协议（具有数据加密）
加密方式
（1）对称密钥加密：
客户端在向服务器发送数据之前，先根据自己制定加密方式将数据进行加密，然后将解密方式（密钥）与数据一起打包发送给服务器，服务器接收后用密钥解密从而得到客户端传来的数据。
但是这种加密方式并不安全，因为解密方式是随同数据一起打包，如果第三方在传输过程中进行拦截也可以得到解密方式获取数据。

（2）非对称密钥加密：
服务器设定加密方式（公钥），发送给客户端，客户端使用该加密方式设置好数据发送给服务器端，服务器端再使用自己配套的密钥（私钥）进行解密。
但是这种方式中如果公钥传递过程中被拦截篡改的话，对客户端的加密非常不安全。同时这种通信过程的效率并不高。

（3）证书密钥加密
服务器开发者携带公开密钥向数字证书认证机构提交申请，机构会发送一个数字签名来认证服务器提供的公钥的真伪，以保证服务器向客户端传送的公开密钥是真实的。
一般情况下，证书的数字签名很难被伪造，这取决于认证机构的公信力，一旦确认信息无误之后，客户端就会通过公钥对将要传输的信息进行加密传送，服务器接收后再用自己的私钥进行解密。

在这里插入图片描述
本文下接第二章：爬虫开发-requests模块的学习

猜你喜欢

转载自blog.csdn.net/KQwangxi/article/details/113922986

python爬虫实战之旅（第一章：爬虫基础简介）

爬虫基础简介——第一章

第一章网络爬虫简介

路飞学城—Python—爬虫实战密训班第一章

第一章：爬虫

爬虫第一章

第一章认识爬虫

第一章爬虫认知

人工智能第一章：Python语言基础+爬虫

第一章python 简介

第一章 Python简介

第一章：python简介

第一章 python基础

python第一章--基础

Python基础第一章

爬虫入门第一章

《Java并发编程实战》—— 第一章简介

Flask开发实战：第一章 01 简介

路飞学城Python爬虫课第一章笔记

路飞学城-python爬虫密训-第一章

路飞学城-Python爬虫集训-第一章

《用Python写网络爬虫》第一章踩坑

第一章 Python爬虫：安装及要求 - day1

Spring之旅第一章

第一章-Spirng之旅

第一章 Oracle基础简介

java基础篇第一章：Java简介

第一章Python简介——numpy和matplotlib

python 第一章——简介与环境搭建

崔庆才《Python3网络爬虫开发实战教程》的学习笔记系列第一章基本库的使用

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)