Python爬虫（一）爬虫的原理 - 代码天地

Python爬虫（一）爬虫的原理

其他 2018-09-10 07:22:32 阅读次数: 0

在输入网址后，你便可以在网页中看见各式各样的内容，有图片、视频及文本等。这是因为输入网址后DNS服务器寻找服务器主机，并且向它发送请求，服务器接收请求后解析并作出响应，将结果返回给浏览器，浏览器再将结果进行解析，这便是我们在网页中看到的内容。因此，爬虫的基本流程如下。

爬虫的基本流程

（1）发送请求
通过HTTP向站点发送Request请求，请求中包含header等信息。

（2）获取响应内容
若服务器正常响应，会返回一个Response响应，这就是我们要获取的内容。

（3）解析内容
得到的内容有几种形式。若是HTML，可以用正则表达式和页面解析库进行解析。若是Json，可转为Json对象解析。

（4）保存数据
可以将数据保存为各种形式，如数据库、文本等。

这里涉及到Request与Response的概念。Request就是浏览器向目标服务器发送请求。Response就是服务器接收到浏览器的请求后，做出相应的处理，并且把处理结果返回给浏览器的过程。下面两图分别为请求YouTube时的Request和Response信息。
这里写图片描述

在这部分，我们先简单的概括一下爬虫的不同的处理方法，接下来的再对每个进行细说。

解析数据的方法
（1）直接处理
（2）Json解析
（3）正则表达式处理
（4）BeautifulSoup解析处理
（5）PyQuery解析处理
（6）XPath解析处理

有时候爬虫抓取到的页面和浏览器中显示的内容是不一样的，这是因为有的网站通过js、ajax动态加载数据，因此产生这种问题。解决js渲染问题有几种方法。
（1）分析ajax
（2）Selenium、webdriver
（3）Splash
（4）PyV8，Ghost.py

猜你喜欢

转载自blog.csdn.net/dxk_093812/article/details/81197272

Python爬虫（一）爬虫的原理

python爬虫：爬虫的工作原理

Python爬虫【一】爬虫的基本原理

PYTHON 爬虫笔记一:爬虫基本原理梳理

python爬虫入门一：爬虫基本原理

python爬虫(一)_爬虫原理和数据抓取

Python爬虫原理 Python爬虫原理

python爬虫实现原理

Python爬虫原理

【Python】网络爬虫原理

python爬虫的原理

Python爬虫（一）什么是爬虫？

python爬虫：初始爬虫一

Python爬虫（一）：爬虫伪装

Python 爬虫（一）：爬虫伪装

一、Python爬虫-认识爬虫

Python爬虫原理与python爬虫实例大全

Python爬虫1：爬虫原理、网页构造与第一个爬虫程序

Python零基础入门爬虫原理与数据抓取(一)-通用爬虫和聚焦爬虫

PYTHON爬虫（爬虫的基本原理）

Python爬虫入门——1.1爬虫原理

Python爬虫1——pathon爬虫原理

python之爬虫（二）爬虫的原理

【爬虫】一、爬虫的基本原理

python之爬虫的入门01------爬虫原理、爬虫伪装

Python爬虫原理解析

Python网络爬虫原理及实践

Python 网页爬虫的原理是怎样的？

Python爬虫学习（一）

python爬虫（一）

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)