爬虫--今日头条

1、分析今日头条

  在看头条的时候可以发现展示出来的页面的数据都是一些封装过的js代码或者css代码,所以这时候就需要考虑页面的数据是不是封装在cookie里面了

  回过头去看cookie就可以发现有一个s_v_web_id的cookie字段,然后上去一试就得到了当前网页的真是源代码,所以我们就可以根据这个cookie和网址一起想服务端发送过去以来获得真实的数据

2、选取合适的方法来爬

  当我们获得了真实的数据以后,要走的就是解析这里面的内容了,我又定睛一看,发现我要的所有信息都放在了data这个字典里面了,所以我就循环data,然后获得里面的title和id(要记住这里面的id是需要进行拼接的,所以只能手动进行拼接)

3、选择存储方式

  我代码里面没有写存储方式,但是我一般使用mongodb比较多,所以就可以直接将数据保存到mongo中

具体代码在:https://github.com/1213William/toutiao_spider

猜你喜欢

转载自www.cnblogs.com/tulintao/p/11486268.html