01_爬虫的基本概念和流程 - 代码天地

01_爬虫的基本概念和流程

其他 2019-06-11 20:14:59 阅读次数: 0

为什么我们要学习爬虫？学习爬虫有什么意义？

进行数据分析，可以爬取网站上面的数据，来进行数据分析
我们现在身处大数据时代，大数据的数据是怎么来的？
- 爬虫来获取（方法之一）
  - 比如微博的微指数可以看热词的趋势
- 从官方下载
  - 利用爬虫下载
- 买数据
- 很多网页会通过cookie来获取用户的浏览信息，然后保存到后台形成大数据
学完爬虫把爬取到的内容直接呈现出来
- 做成新闻网页等等
- 视频网页等等
- 音乐app网页等
其他用途
- 12306抢票
- 微信公众号的爬取
- 短信轰炸
- 网络上的投票

爬虫的定义是什么呢？

网络爬虫又叫网页蜘蛛，网络机器人
- 模仿客户端发送网络请求，接受请求响应
- 按照一定的规则，自动地抓取互联网信息的程序
- 原则上，只要是浏览器能做的事，爬虫都能做
爬虫一般分为哪几类？
- 通用爬虫
  - 搜素引擎的爬虫
- 聚焦爬虫
  - 针对特定引擎特定网站的爬虫
  - 我们重点写的是聚焦爬虫

爬虫的合法性

什么是robots协议？
- 通过网站的robots协议告诉搜索引擎哪些网页可以抓取哪些不可以抓取
- 一般在当前网站的根目录里的/robots.txt
- 是道德层面上的，如果爬取的数据只是个人使用，那还好
  - 不过最好还是遵守
如果是个人分析所用，不泄漏转载合法
如果是真实数据，比如营业地址，电话清单等，合法
- 但如果是黑客手段获取的某公司人员的个人信息，这个不好了
如果是原创作品，最好不要转载

聚焦爬虫的基本流程是什么？

首先准备我们要提取的url_list
- 然后我们发送请求获取响应
- 从响应里面提取我们要的数据
  - 把数据提取出来
  - 把下一步要进行发送请求的url提取出来
    - 重复1-3
- 把数据保存到数据库，或者导出为csv等格式的文件

猜你喜欢

转载自www.cnblogs.com/xiaoking32/p/11005648.html

01_爬虫的基本概念和流程

领域驱动设计_01_基本概念

scrapy框架01_基础概念和流程

python-面向对象-01_面向对象(OOP)基本概念

爬虫---基本概念

Servlet基本概念和流程

SpringMVC基本概念和执行流程

Spring基本概念和创建流程

ARIMA基本概念和流程讲解

SQL Server 01(基本概念和基本操作)

01 JMS基本概念

Maven 基本概念 01

01-基本概念

【Kafka】01 基本概念

1 爬虫基本概念

一、爬虫基本概念

【Mybatis】Day 01 -- 基本概念和入门案例

【RocketMq系列-01】RocketMq安装和基本概念

001 爬虫的基本概念以及urllib的request和parse

27、异常的基本概念和处理流程

OAuth2基本概念和运作流程

【云速建站】几个基本概念和流程解释

java异常的基本概念和处理流程

webpack基本概念、打包流程和热更新原理

数据挖掘一些基本概念和流程

DQN基本概念和算法流程（附Pytorch代码）

爬虫一、爬虫基本概念、基本请求方式和基本库

PaddlePaddle学习之旅：01_基本操作与流程

爬虫的概念和基本流程基本了解（二）

爬虫的概念和基本流程基本了解（一）

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)