python爬虫学习(一)

编程语言 2022-04-06 16:18:08 阅读次数: 0

1.简介

什么是爬虫？

爬虫就是通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程

爬虫的价值：

抓取大量数据。为自己所用

违法or合法

法律上是不被禁止

具有违法风险

带来的风险

干扰了网站正常运营

抓取受到法律保护的特定类型的数据或信息

如何避免被请去喝茶

时常优化程序，避免干扰网站正常运行

审查抓取到的内容，如果发现涉及到用户隐私或商业机密等内容，及时停止

1.2使用场景分类

通用爬虫
抓取系统重要组成部分，抓取的是一整张页面数据
聚焦爬虫
建立在通用爬虫基础之上，抓取的是页面中指定内容
增量式爬虫
检测网站中数据更新的情况，只抓取最新更新出来的数据

1.3 反爬机制

门户网站，通过制订相应的策略和技术手段，阻止对网站数据的爬取

1.4 反反爬策略

破解反爬机制

1.5 robots.txt协议

君子协议，规定了网站中哪些数据可以被爬取，哪些不可以被爬取

1.6 http协议

服务器和客户端进行数据交互的一种形式

1.7 常用请求头信息

1.  User-Agent: 请求载体的身份标识
2. Connection： 请求完毕后，是断开还是保持连接：

1.8 常用响应头信息

1.Content-Type：服务器响应会客户端的数据类型

1.9 https协议

安全的超文本传输协议
进行数据加密

1.10 数据加密

1. 对称密钥加密
2. 非对称密钥加密
3. 证书密钥加密

猜你喜欢

转载自blog.csdn.net/pggril/article/details/123901426

Python爬虫学习（一）

python 爬虫学习（一）

Python爬虫学习一

python爬虫学习(一)

python爬虫学习笔记(一)-爬虫介绍

Python爬虫学习（一）——爬虫基础

python学习之爬虫一

Python网络爬虫学习（一）

Python爬虫学习笔记一

Python爬虫学习笔记（一）

Python爬虫开发学习（一）

python爬虫学习笔记（一）

Python学习-网络爬虫(一)

Python爬虫图片学习(一)

Python网络爬虫学习笔记（一）

Python实现网络爬虫基础学习（一）

python3 爬虫学习日记【一】

Python分布式爬虫学习（一）

《精通python网络爬虫》学习笔记一

《用Python写爬虫》学习笔记（一）

学习Python之网络爬虫（一）

Python爬虫学习笔记总结(一)

python爬虫学习笔记一-----开篇前言

Python爬虫入门学习实战项目（一）

python3爬虫学习（一）

Python进阶学习（一）网络爬虫

python爬虫------scrapy学习笔记（一）

Python爬虫学习（一）Requests库入门

Python爬虫学习:一些库

新手学习Python 爬虫笔记（一）

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)