python爬虫——记一次前所未有的经历(爬取魔方格作文)

前言

我还是第一次遇到魔方格这么处理请求的网站,这里记录一下

过程

1、爬取对象:http://zuowen.mofangge.com/html/zwDetail/20161023/u111424965.html

需要抓取中间作文格里的作文

2、分析

直接请求得到的结果是:

这里我有点懵逼,自己又请求一遍自己?随后抓包,发现魔方格这个网站要在5~7秒内同时对一个作文页面请求,才会返回真正的html页面,而且,它貌似是通过IP地址来辨别用户的,不是常规的sessionid、cookie、token,学爬虫到现在也处理过几十个网站了,第一次见这样的,暂时不清楚开发者这么做的目的,如果是反爬,基本无效,毕竟爬虫的请求速度摆在那里

猜你喜欢

转载自blog.csdn.net/dhaiuda/article/details/83868365