爬虫（一）初识爬虫 - 代码天地

爬虫（一）初识爬虫

其他 2018-08-13 05:36:52 阅读次数: 0

1 什么是爬虫

网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟浏览器发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。

原则上,只要是浏览器(客户端)能做的事情，爬虫都能够做

2 爬虫的更多用途

12306抢票
网站上的投票
短信轰炸

3. 爬虫的分类

在上一小结中，我们介绍爬虫爬取到的数据用途的时候，给大家举了两个例子，其实就是两种不同类型的爬虫

根据被爬网站的数量的不同，我们把爬虫分为：

通用爬虫：通常指搜索引擎的爬虫（https://www.baidu.com）
聚焦爬虫：针对特定网站的爬虫

4. 爬虫的流程

请思考：如果自己要实现一个和百度新闻一样的网站需要怎么做？

爬虫的工作流程：

向起始url发送请求，并获取响应
对响应进行提取
如果提取url，则继续发送请求获取响应
如果提取数据，则将数据进行保存

5. robots协议

在百度搜索中，不能搜索到淘宝网中某一个具体的商品的详情页面，这就是robots协议在起作用

Robots协议：网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取，但它仅仅是互联网中的一般约定

例如：淘宝的robots协议

小结

数据的来源：
- 去第三方的公司购买数据(比如企查查)
- 去免费的数据网站下载数据(比如国家统计局)
- 通过爬虫爬取数据
- 人工收集数据(比如问卷调查)
爬虫的概念：模拟浏览器发送网络请求，接收请求响应
爬虫分类：通用爬虫、聚焦爬虫
爬虫的流程：
- 向起始url发送请求，并获取响应
- 对响应进行提取
- 如果提取url，则继续发送请求获取响应
- 如果提取数据，则将数据进行保存
robots协议：无需遵守该协议

猜你喜欢

转载自blog.csdn.net/Scrat_Kong/article/details/81609516

爬虫（一）初识爬虫

爬虫学习笔记（一）初识爬虫

爬虫基础之(一) --- 初识爬虫

初识爬虫

爬虫初识

初识爬虫①

爬虫（初识爬虫）

爬虫——爬虫初识

【python爬虫】初识爬虫

网络爬虫-----初识爬虫

python爬虫从入门到放弃（一）之初识爬虫

由浅到深玩转Python爬虫(一)初识爬虫

python爬虫工程师成长之路一初识爬虫

python3 爬虫（一）--初识urllib

第一篇：爬虫初识

爬虫框架Scrapy 之(一) --- scrapy初识

(PY爬虫03)爬虫初识

初识爬虫② - 爬虫初使用

python爬虫-初识爬虫/反爬虫

爬虫初识jsoup

Python初识爬虫

Python爬虫初识

Scrapy爬虫框架初识

初识网络爬虫

00_初识爬虫

爬虫之DynamoDB初识

爬虫初识及PyCharm的安装

爬虫——BeautifulSoup初识

爬虫初识与入门

xinxin -爬虫的初识

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)