python爬虫学习(一)

1.简介

什么是爬虫?

爬虫就是通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程

爬虫的价值:

抓取大量数据。为自己所用

违法or合法

  • 法律上是不被禁止
  • 具有违法风险

带来的风险

  • 干扰了网站正常运营
  • 抓取受到法律保护的特定类型的数据或信息

如何避免被请去喝茶

  • 时常优化程序,避免干扰网站正常运行
  • 审查抓取到的内容,如果发现涉及到用户隐私或商业机密等内容,及时停止

1.2使用场景分类

  1. 通用爬虫
    抓取系统重要组成部分,抓取的是一整张页面数据

  2. 聚焦爬虫
    建立在通用爬虫基础之上,抓取的是页面中指定内容

  3. 增量式爬虫
    检测网站中数据更新的情况,只抓取最新更新出来的数据

1.3 反爬机制

门户网站,通过制订相应的策略和技术手段,阻止对网站数据的爬取

1.4 反反爬策略

破解反爬机制

1.5 robots.txt协议

君子协议,规定了网站中哪些数据可以被爬取,哪些不可以被爬取

1.6 http协议

服务器和客户端进行数据交互的一种形式

1.7 常用请求头信息

1.  User-Agent: 请求载体的身份标识
2. Connection: 请求完毕后,是断开还是保持连接:

1.8 常用响应头信息

1.Content-Type:服务器响应会客户端的数据类型

1.9 https协议

安全的超文本传输协议
进行数据加密

1.10 数据加密

1. 对称密钥加密
2. 非对称密钥加密
3. 证书密钥加密

猜你喜欢

转载自blog.csdn.net/pggril/article/details/123901426