为什么要做网络爬虫?
首先请问:都说现在是"大数据时代",那数据从何而来?
企业产生的用户数据:百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数
数据平台购买数据:数据堂、国云数据市场、贵阳大数据交易所
政府/机构公开的数据:中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克。
数据管理咨询公司:麦肯锡、埃森哲、艾瑞咨询
爬取网络数据:如果需要的数据市场上没有,或者不愿意购买,那么可以选择招/做一名爬虫工程师,自己动手丰衣足食。拉勾网Python爬虫职位
网络爬虫是什么?
网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。
爬虫的更多用途
12306抢票
网站上的头票
短信轰炸
关于Python网络爬虫,我们需要学习的有:
- Python基础语法学习(基础知识)
- 对HTML页面的内容抓取(数据抓取)
- 对HTML页面的数据提取(数据提取)
- Scrapy框架以及scrapy-redis分布式策略(第三方框架)
- 爬虫(Spider)、反爬虫(Anti-Spider)、反反爬虫(Anti-Anti-Spider)之间的斗争…