爬虫——爬虫初识

其他 2019-09-26 19:44:31 阅读次数: 0

1.概念

1.1什么是爬虫

网络爬虫（又被称为网页蜘蛛，网络机器人），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，通俗的讲就是通过程序去获取web页面上自己想要的数据，也就是自动抓取数据。

1.2爬虫有什么用

爬虫是为了获取数据，比如你想在网页上下载一些图片，一张一张的手动下载又太慢，就可以通过爬虫快速的爬取图片；获取的数据可以用于数据分析的素材等等。

1.3爬虫的本质

爬虫实际上就是用程序模仿用户向服务器发送请求，服务器返回数据后，程序通过分析和过滤html代码，从中获取我们想要资源（文本，图片，视频.....）。

2.原理

2.1爬虫的基本流程

发起请求
通过HTTP库向目标站点发起请求，也就是发送一个Request，请求可以包含额外的header等信息，等待服务器响应

获取响应内容
如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能是HTML,Json字符串，二进制数据（图片或者视频）等类型

解析内容
得到的内容可能是HTML,可以用正则表达式，页面解析库进行解析，可能是Json,可以直接转换为Json对象解析，可能是二进制数据，可以做保存或者进一步的处理

保存数据
保存形式多样，可以存为文本，也可以保存到数据库，或者保存特定格式的文件

2.2 Request和Response

见博客：https://www.cnblogs.com/lymlike/p/11579840.html

2.3如何解析数据

直接处理
Json解析
正则表达式处理
BeautifulSoup解析处理
PyQuery解析处理
XPath解析处理

2.4如何保存数据

文本：纯文本，Json,Xml等
关系型数据库：如mysql,oracle,sql server等结构化数据库
非关系型数据库：MongoDB,Redis等key-value形式存储

参考：https://www.cnblogs.com/zhaof/p/6898138.html

猜你喜欢

转载自www.cnblogs.com/lymlike/p/11593824.html

初识爬虫

爬虫初识

初识爬虫①

爬虫（一）初识爬虫

爬虫（初识爬虫）

爬虫——爬虫初识

【python爬虫】初识爬虫

网络爬虫-----初识爬虫

(PY爬虫03)爬虫初识

初识爬虫② - 爬虫初使用

python爬虫-初识爬虫/反爬虫

爬虫初识jsoup

Python初识爬虫

Python爬虫初识

Scrapy爬虫框架初识

初识网络爬虫

00_初识爬虫

爬虫之DynamoDB初识

爬虫初识及PyCharm的安装

爬虫——BeautifulSoup初识

爬虫初识与入门

xinxin -爬虫的初识

初识爬虫基础

1.24 初识网络爬虫

210301初识爬虫

初识爬虫③ -网页基础

爬虫学习笔记（一）初识爬虫

初识网络爬虫-网络爬虫概述

python爬虫系列之初识爬虫!

python爬虫系列之初识爬虫

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)