从入门到放弃-python爬虫系列：爬虫简介

其他 2021-01-22 22:46:34 阅读次数: 0

什么是爬虫？

在这里插入图片描述

1. 什么是爬虫？

我们可以把网络比作一个蜘蛛网，每个网页都是这张大网上的节点，而爬虫就是这个大网上的蜘蛛。爬虫可以根据这些节点爬取网络上的想要的数据。从另一方面来说，爬虫就是个用于获取网页、提取数据和保存数据的自动化程序。有人说自己手动也可以提取，但如果想要获取大量的数据就会消耗巨大的人力资源，这时，爬虫的优势就体现出来了，它可以极短时间内获取大量想要的数据，同时还具备容错机制，使数据高效准确的爬取。

2. 爬虫的工作原理

爬虫的爬取过程主要分为3个步骤：获取网页、解析并提取数据、保存数据。详细介绍如下：
1. 获取网页
所谓获取网页就是模拟浏览器获取网页的源代码。我们想要的数据基本都在里面，所以只要获取了网页的源代码，就可以对其进行下一步的操作了。这里主要用到的库主要是urllib和requests。
2. 提取数据
获得源代码后我们就应该分析数据、处理数据，从而使其变得井井有条，方便我们对齐进行数据提取。这里主要用到有正则表达式，此外还有许多库供我们使用，后面会一一详细介绍。
3. 保存数据
提取获得我们想要的数据后，就需要我们将其存放起来，方便数据的使用。保存格式有多种，如txt,表格，数据库等等。

从今天起，不定期发布有关爬虫的文章，内容略有不足，还请各位大牛多多指教，见谅！

猜你喜欢

转载自blog.csdn.net/qq_45807032/article/details/106102595

从入门到放弃-python爬虫系列：爬虫简介

从入门到放弃：python爬虫系列-xpath解析库的使用

从入门到放弃-python爬虫系列：requests库的使用

Python爬虫从入门到放弃 00 | 前言

重新入门python爬虫到放弃

python爬虫从入门到放弃（一）- 认识爬虫

python爬虫从入门到放弃（二）- 爬虫的深层原理

python爬虫从入门到放弃（一）之初识爬虫

python爬虫从入门到放弃（二）之爬虫的原理

Python爬虫从入门到放弃（二十二）之爬虫与反爬虫大战

python爬虫从入门到放弃（零）- 叨叨叨

python爬虫从入门到放弃（五）之正则的基本使用

python爬虫从入门到放弃（七）之 PyQuery库的使用

python爬虫从入门到放弃（八）之 Selenium库的使用

python爬虫从入门到放弃（六）之 BeautifulSoup库的使用

python爬虫从入门到精通-系列教程

python爬虫入门简介

python爬虫入门四：BeautifulSoup库(转) python爬虫从入门到放弃（六）之 BeautifulSoup库的使用 python爬虫从入门到放弃（六）之 BeautifulSoup库的使用

Python爬虫从入门到放弃 03 | Python爬虫中的高级用法

Python爬虫从入门到放弃 02 | Python爬虫中的常用语法与模块

Python爬虫从入门到放弃 01 | Python爬虫运行环境的配置

Python爬虫从入门到放弃 07 | Python爬虫实战--下载盗墓笔记全集

Python爬虫从入门到放弃 08 | Python爬虫实战--下载英雄联盟全皮肤

Python 爬虫从入门到放弃（11 个有趣的 Python 爬虫例子）

【Python 爬虫】从入门到放弃（11 个有趣的 Python 爬虫例子）

爬虫从入门到放弃——WebMagic概述

爬虫从入门到放弃——爬虫的基本原理

爬虫从入门到放弃——反爬虫理论基础

爬虫从入门到放弃——WebMagic使用简单的爬虫（1）

爬虫从入门到放弃——WebMagic使用简单的爬虫（2）

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)