python_2开发简单爬虫

2017年12月03日 16:43:01 独行侠的守望阅读数：204 标签： python爬虫更多
个人分类： Python
编辑
版权声明：本文为博主原创文章，转载请注明文章链接。 https://blog.csdn.net/xiaoanzi123/article/details/78700863
学习地址：http://www.imooc.com/learn/563 慕课网
课程须知
本课程是Python语言开发的高级课程1、Python编程语法；2、HTML语言基础知识；3、正则表达式基础知识；
老师告诉你能学到什么？
1、爬虫技术的含义和存在价值
2、爬虫技术架构
3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器
4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行
5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！
★第一章
课程介绍：
课程进行简单的爬虫讲解----不需要登录的静态网页抓取
1、爬虫简介
2、简单爬虫架构
3、URL管理器
4、网页下载器urllib2
5、网页解析器beautifulsoup
6、完整实例爬虫百度百科
★第二章，
爬虫是什么：从一个url出发，自动访问他所关联的所有url，提取数据。
爬虫价值：爬取互联网数据为我所用，开发新产品提供更好的服务

★第三章
3-1 python简单爬虫架构

扫描二维码关注公众号，回复： 5752899 查看本文章

3-2 python简单爬虫架构动态运行流程【时序图】

★第四章 url管理器和实现方法

4-1 url管理

管理待抓取url结合和已经抓取的url集合，防止重复抓取和循环抓取

url管理器支持的功能至少5个

4-2 url管理器的实现方式

目前有三种。

★第五章网页下载器和 urllib2 模块

5-1 网页下载器简介将互联网上url对应的网页下载到本地的工具

python有哪些网页下载器？

5-2 urllib2 下载器网页的三种方法

①最简洁方法：把url传递给urllib2模块的urlopen方法 urllib2.urlopen(url)

②

③

三种方法功能依次更大更强

5.3 urllib2实例代码演示

ps:我安装的是Python3.5.2 ，使用第一种urllib2.urlopen（）报错，搜索发现官方3.0版本已经把urllib2,urlparse等五个模块都并入了urllib中，也就是整合了，参考 http://blog.csdn.net/pythonniu/article/details/51855035 ，正确用法