《用Python写爬虫》学习笔记（二）编写第一个网络爬虫 - 代码天地

《用Python写爬虫》学习笔记（二）编写第一个网络爬虫

其他 2018-09-15 21:12:38 阅读次数: 0

1、首先，下载网页使用Python的urllib2模块，或者Python HTTP模块request来实现

urllib2会出现问题，解决方法1.重试下载（设置下载次数）

2.设置用户代理

2、其次，三种常见方法

1>网站地图爬虫（解析网站地图，将使用正则表达式，从<loc>标签中提取出URL)

2>ID遍历爬虫（网站若使用连续大数作为ID，或者数值可以使用，若不是，就难发挥作用）

3>链接爬虫（可以跟踪所有链接的方式，下载大量网页，也可以使用正则表达式确定下载哪些页面）

（碰到相对链接要转换为绝对链接，Python模块urlparse实现）

3、最后添加一些功能，完善爬虫。

1>解析robots.txt (使用Python自带的robotparser模块）

2>urllib2不支持的情况下使用 HTTP模块request来实现该功能

3>下载限速（Throttle类记录了每个域名上次访问的时间，若中间时间短，将执行睡眠操作）

4>避免爬虫陷阱（要修改seen变量，增加页面深度记录，到达最大深度时，停止链接爬取）

完。

猜你喜欢

转载自www.cnblogs.com/roxywong/p/9652122.html

《用Python写爬虫》学习笔记（二）编写第一个网络爬虫

《用python写网络爬虫》编写第一个网络爬虫

我的第一个用python写的爬虫

Python网络爬虫学习笔记——第一个爬虫程序

入坑爬虫(二)编写第一个python小爬虫

python爬虫(二)-编写第一个小爬虫

Scrapy爬虫学习笔记1. 安装并编写第一个Scrapy爬虫

编写第一个网络爬虫

来！编写你的第一个网络爬虫

初学python第一个网络爬虫

JAVA爬虫--编写第一个网络爬虫程序

学习笔记--我的第一个爬虫项目

第一个Python爬虫

Python 第一个爬虫

python第一个爬虫

爬虫笔记（一）——第一个爬虫

python 网络爬虫入门（一）———第一个python爬虫实例

python 网络爬虫第一个python爬虫实例

Python爬虫之第一个爬虫

python爬虫1：第一个爬虫

教你如何编写第一个爬虫

用node.js写的第一个爬虫

我把我用R写的第一个爬虫就献给了国家

我用Java写的第一个爬虫Demo-爬图片

写的第一个爬虫脚本_20180815

第一Python第一个爬虫项目

python 爬虫《百炼成佛》爬虫入门（爬虫介绍）第一个爬虫程序

《用Python写爬虫》学习笔记（一）

如何开始写你的第一个python脚本——简单爬虫入门！

我的第一个使用python写的爬虫程序

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)