爬虫案例｜从攻克反爬机制到地理信息可视化！

上图是上海医疗服务信息便民查询系统网站（http://www.soyi.sh.cn/）上公布的医疗机构位置的热力图。

本案例先从该网站抓取全部医疗机构的坐标信息，然后用免费的BDP个人版（http://www.bdp.cn）在线做图。爬取数据时，我找到了数据的API接口，但是获取数据时发现获取失败。排查原因，发现是网站用了一种反爬虫的机制，我用伪造Cookie的方式绕开了反爬机制，顺利获取到数据。

下面开始一步步讲解。

爬虫案例｜从攻克反爬机制到地理信息可视化！

爬虫案例｜从攻克反爬机制到地理信息可视化！

信息加载后，网页网址并没有发生变化，所以怀疑网页用了异步加载的技术。接下来用快捷键 Ctrl + Shift + I 打开Chrome的开发者工具，切换到Network标签栏。重现刚才点击页面的操作，也就是再点击不限链接，页面就重新加载了。

爬虫案例｜从攻克反爬机制到地理信息可视化！

进群：548377875 即可获取数十套PDF哦！
然后发现，多出了6个请求，第一个是个XHR类型的请求，这就是异步加载的意思，后5个是图片，不是我们关心的。选中第一个请求，看看Preview，发现页面上展示的信息，就在里面，是个JSON格式的数据

爬虫案例｜从攻克反爬机制到地理信息可视化！

爬虫案例｜从攻克反爬机制到地理信息可视化！

Request URL是 http://www.soyi.sh.cn/h/show?page=1&type=2&qx=&traps=&category=&category_s3_ul=&level=&tech=&calve=&quick=&stype=&length=10
页面上显示，总共有505页的数据，我们看到的是第一页，上面URL里，我把page=1用红色标出来了，能猜出来什么意思吧。
Request Method表示的是请求方法，在这里是GET方法，这决定了我们在用Python写爬虫时用什么函数获取数据。
第一次尝试获取数据
用requests库里的get函数获取接口的数据

爬虫案例｜从攻克反爬机制到地理信息可视化！

爬虫案例｜从攻克反爬机制到地理信息可视化！

反爬虫机制的分析
尝试给上面代码里的URL赋予该网站其他页面或链接的网址，结果都出现公告页的HTML代码。
我猜想该网址是不是用了这样的反爬虫机制：如果用户第一次访问该网站，就会自动跳转到公告页，如果已经访问过该网站，就会获得想查看的资源。而网站判断用户有没有访问过，依据是session和cookie，前者是在服务器端控制，后者在浏览器端留下痕迹。
怎么验证我的猜想呢，我现在再次访问网址http://www.soyi.sh.cn/ ，发现直接看到了网站主页，而不是公告页。请回过头看看第一步里公告页的网址

爬虫案例｜从攻克反爬机制到地理信息可视化！

发现并其网址并不是http://www.soyi.sh.cn/，而是http://www.soyi.sh.cn/op，说明在我第一次访问网站时，发生了页面跳转，而再次访问网站时，不会跳转。
然后我再换个浏览器，访问http://www.soyi.sh.cn/，发现果然转到公告页了，因为此时是用新的浏览器第一次访问该网站
以上证明我的猜想是正确的。那要怎么攻克这道防线呢？
伪造Cookie
为什么这种反爬的手段有用呢？因为人登录网站，只要访问过，就会在浏览器留下Cookie，证明已经访问过了。但是如果用Python代码来获页面，就留不下Cookie。
我这里用的突破手段就是用Chrome的开发者工具，拿到浏览器里的Cookie，强行加在Python爬虫的代码里，让服务器识别不出这是个爬虫程序。与其说是伪造，不如说是借用Cookie。
还是回到寻找数据源的那步，查看Header信息里的Request Headers，找到Cookie那段，把Cookie信息复制出来。

爬虫案例｜从攻克反爬机制到地理信息可视化！

爬虫案例｜从攻克反爬机制到地理信息可视化！

可以看到，跟之前的代码相比，我再调用request.get函数时，增加了headers参数，在headers参数里，把Cookie和浏览器型号等信息加进去了，目标网站的服务器接收到这些信息就会以为我的程序是浏览器，并且已经访问过他们网站，于是给我发送了医疗机构的数据，也就是后面的res变量。利用json模块解析后，得到的res变量是个字典构成的列表，列表里每个元素都是字典，代表一个医疗机构。
数据整理

爬虫案例｜从攻克反爬机制到地理信息可视化！