用Python玩爬虫，首先得有一个流程，这个流程最适合小白用！ - 代码天地

用Python玩爬虫，首先得有一个流程，这个流程最适合小白用！

其他 2018-05-20 19:51:43 阅读次数: 2

爬虫基本流程

发起请求

通过HTTP库向目标服务器发送Request，Request内可以包含额外的headers信息。
获取响应内容

如果服务器正常响应，会返回Response，里面包含的就是该页面的内容。
解析数据

内容或许是HTML，可以用正则表达式、网页解析库进行解析。

或许是Json，可以直接转换为Json对象解析。
保存数据

可以存储为文本，也可以保存至数据库，或其他特定类型文件。

用Python玩爬虫，首先得有一个流程，这个流程最适合小白用！

Response中包含的内容

响应状态

Status Code:200

即状态码，一般200表示响应成功。
响应头

Response Headers

内容类型，内容长度，服务器信息，设置Cookie等。
响应体

请求资源的内容，如网页源代码，二进制数据等。

用Python玩爬虫，首先得有一个流程，这个流程最适合小白用！

用Python玩爬虫，首先得有一个流程，这个流程最适合小白用！

一般做网页请求的时候，可以先判断状态码是否是200，再取出响应体进行解析。

解析方式

直接处理
Json解析
正则表达式
BeautifulSoup
PyQuery
XPath

视情况选择合适的解析方式。

保存数据

文本保存

纯文本、Json、Xml等。
关系型数据库保存

MySQL、Oracle、SQLServer等。
非关系型数据库保存

MongoDB、Redis等Key-Value形式存储。
二进制文件

图片、视频、音频等特定文件。

Urllib库

Python内置的HTTP请求库

模块	说明
urllib.request	请求模块
urllib.error	异常处理模块
urllib.parse	url解析模块
urllib.robotparser	robots.txt解析模块

用Python玩爬虫，首先得有一个流程，这个流程最适合小白用！

用Python玩爬虫，首先得有一个流程，这个流程最适合小白用！

用Python玩爬虫，首先得有一个流程，这个流程最适合小白用！

用Python玩爬虫，首先得有一个流程，这个流程最适合小白用！

欢迎大家关注我的博客：https://home.cnblogs.com/u/Python1234/

欢迎加入千人交流学习群：125240963

猜你喜欢

转载自www.cnblogs.com/Python1234/p/9064223.html

用Python玩爬虫，首先得有一个流程，这个流程最适合小白用！

今天教小白用Python实现一款小游戏！最适合装逼的神技！亲测可用

最适合小白的matlab教程系列_进阶系列一

最适合新手小白的8个python开发环境（内附python IDE最新下载地址+软件激活码+长期有效）

最适合新手小白的9个python开发环境（内附python IDE最新下载地址+软件激活码+长期有效）

WebRTC与CMAF：哪一个最适合您？

任务管理与项目管理：哪一个最适合你的团队？

最适合 Python 入门的资源有哪些？

哪种Python IDE最适合你？这里有一份优缺点列表

推荐三个最适合零基础小白练手的python项目，分享给你！

博导推荐给我一本基于Python实现爬虫的书, 最适合程序猿们看的!

为什么云优先流程集成最适合云应用程序？

最适合入门的编程语言——python

训练大模型的九大深度学习库，哪一个最适合你？

老男孩python|为什么python最适合小白呢？

完全零基础小白该如何学爬虫？大牛总结最适合零基础的爬虫教程！

Python 最适合练手的爬虫百思不得姐

熬了一晚上，小白用Python写了一个股票提醒系统

最适合初学者的split()的用法/小白必看！

最适合小白入行IT的几种编程语言！

最适合小白入门的软件测试基础课程

良心推荐：最适合玩吃鸡手游的安卓机型有哪些？刺激战场为例

一个小白用 PhotoView 引起的学习记录

IT行业6大岗位最适合零基础入门的是这个，三个月上手

没有最好的框架，只有最适合的框架

用最适合自己的方式实施Scrum

最适合初学者的8个python开发环境（内附python IDE最新下载地址+软件激活码+长期有效）

花了半个月时间，终于找到了一款最适合的python教程

最适合Python入门到大牛必看的7本书籍，一定要收藏！

【Python教学】Python兼职有哪些？给你们分享一下最适合学生党/工作党的Python兼职攻略以及接私活经验

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)