《用Python写网络爬虫》第一章踩坑

其他 2018-11-04 14:31:39 阅读次数: 0

教程使用环境为pyhon2.x，使用python3.x进行学习时遇到一些坑，记录下解决办法。

由于python2.x中的urllib2模组在3.x中被整合到了urllib模组中，教程中涉及urllib2的部分的代码需调整

1.4.1下载网页：

urlopen:

　　from urllib import request as r

　　 r.urlopen()

URLError:

　　except r.URLError as e:

1.4.4链接爬虫：

urlparse名字改为parse：

　　from urllib import parse

　　link = parse.urljoin(seed_url, link)

1.4.4支持代理：

Request & build_opener()：

　 from urllib import request as r

　　request = r.Request(url, headers=headers)

　　opener = r.build_opener()

最终版本代码（bitbucket链接内）：

deque:

　　from collections import deque

　　crawl_queue = deque([seed_url])

正则表达式（部分页面地址有所变化，因此匹配规则做部分修改）：

get_links(...):

　　re.compile('<a[^>]+href=["\']([^#].*?)["\']', re.I)

　　link_regex ='/.*?(index|view)'

　　　

猜你喜欢

转载自www.cnblogs.com/hsifria/p/9903756.html

《用Python写网络爬虫》第一章踩坑

第一章用神经网络来识别手写数字(1)

第一章网络爬虫简介

第一章：爬虫

爬虫第一章

第一章认识爬虫

第一章爬虫认知

Python神经网络编程第一章

vue学习中踩过的坑第一章

第一章网络互联

第一章网络概述

第一章网络基础

python第一章

python学习第一章

第一章 python基础

第一章python入门

第一章 Python入门

第一章初识python

第一章python 简介

python_第一章

python 第一章

python第一章--基础

第一章 Python简介

流畅的python第一章

第一章 python风格

第一章：python简介

Python 第一章学习

Python基础第一章

第一章：初识Python

python爬虫实战之旅（第一章：爬虫基础简介）

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)