第一章爬虫认知

在这里插入图片描述

一前言

学习目标，是希望你能掌握如下一些可以写在简历上的技能。

熟练使用Python语言
掌握网络数据采集技术，熟练使用爬虫工具urllib、requests、xpath、beautifulsoup、re、selenium、aiohttp、scrapy以及scrapy-redis分布式爬虫框架等
熟悉网页语言html及javascripts，掌握json格式数据处理方法，拥有一定反爬经验积累，理解并熟练掌握各种反爬技巧（UA，IP代理，模拟登录，动态页面，验证码等）
了解手机app爬虫，掌握Fiddler抓包工具以及Airtest自动化测试框架的使用，安卓逆向
熟悉掌握数据存储技能MongoDB，MySQL，并配合Python使用，实现数据采集入库
熟悉多进程多线程异步，提高爬虫效率
熟悉scrapy+scrapyd+gerapy实现可视化爬虫程序调度
熟悉celery与apsheduler框架，实现定时更新

此教程大纲可以参考我之前的一篇文章。

二什么是爬虫

是一种按照一定的规则，自动地抓取互联网信息的程序或者脚本。

所谓的网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。在Python中有很多库可以用来抓取网页。

简单来讲，爬虫就是一个探测机器，它的基本操作就是模拟人的行为去各个网站溜达，点点按钮，查查数据，或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。
在这里插入图片描述
核心模拟人的行为

三数据如何产生价值

1.最直接的卖数据
你是否经常接到广告推销的电话，推荐你去植发？
你是否经常接到发财致富的电话，推荐你去投资？
个人信息，电商数据，行业数据等等都是一些热度比较高的交易对象。

在这里插入图片描述

在13项公民信息种类中（姓名、年龄、有效证件号码、婚姻状况、工作单位、学历、履历、家庭住址、电话号码等），报价最低1元/条，最高达到3000元/条。高学历人口信息价格20元－60元/条不等，银行流水单信息1000元-3000元/条。公民通讯住址信息是最常见的非法黑市交易类型，在所有信息种类中占近三成。

哎，学历低连信息都不值钱。

2.整合信息方便查阅
收集整理不同来源的数据，然后整理方便查阅，提高流量。然后上广告，查询收费来盈利。

天眼查，企查查这类网站都是同样的一个运营模式，爬取一些政府公开的数据，进行整理分析合并，然后给会员提供查阅服务。
在这里插入图片描述

还有这种比价网站，获取一些电商的数据，进行整理，然后靠竞价排名，商家返还红包等手段进行盈利。
在这里插入图片描述

3.需要做数据分析再发挥价值
获取行业信息，进行定价选址。
获取评论信息，进行舆论检测。
获取内部信息，进行战略制定。

四数据爬到之后的工作

从事这种工作，当拿到数据之后，假如你只是个工具人，那么你的工作结束了可以直接开始摸鱼，剩下的交给数据分析组或者算法组的同事，就可以了。

但是一般情况下，老板为了他的兰博基尼，会让你再学习一些业务，再做一些数据清洗，分析，可视化的工作。

当你做完这些的时候，老板为了他的法拉利，会让你再做一个后台，进行爬虫监控调度。

在这里插入图片描述

当你后台做完之后，老板为了他的劳斯莱斯，会让你再做一个网站或者app，前后端一起搞，用来给搜索查询展示数据，类似天眼查一样。

当你前端后端搞定之后，老板为了他的宾利，会让你再做一个智能解析器，只需要输入个网址，就能进行这个网站的解析，提取数据，然后保存入库。

老板还要迈巴赫，帕加尼，布加迪，迈凯伦，阿斯顿马丁等等等等，无穷尽也。

五爬虫流程

三步即可搞定爬虫

模拟网络请求
（通过一些请求工具模拟人的网页请求urllib，requests，aiohttp，twisted）
信息解析
（对请求结果的html，js，json等进行处理，主要使用xpath，css选择器，re正则）
数据持久化
（对解析的结果进行存储，本地文件或者数据库）

最关键的一部就是第一步，其他基本就是体力活了。因为第一步你会越到各种各样的反爬措施，倒逼爬虫攻城狮学习前端，后端，图片识别，web安全，android安全，机器学习……

基本上大纲设计就是遵循爬虫三步走的顺序。

今天就到这里了。