知乎搜索关键字爬取相关图片

代码github地址

程序功能:填写搜索关键字,爬虫就会访问知乎搜索页面并处理返回结果,提取标题、url、点赞数、评论数存储到MongoDB数据库中,然后再依次爬取刚才得到的所有url,获取url中所有内容(广告图片不会获取)图片地址。可以选择下载,默认不下载。只保存图片url到txt文件中。

爬取知乎时发现,知乎好像对爬虫很宽容,并没有很难的加密参数,也没有ip频繁检测(不过我并没有加多线程或者异步,可能限制比较松吧),相对于以前的爬虫而言,得到数据的过程并没有什么变化,无非就是看看浏览器F12的参数。

唯一的区别在于知乎的数据量很大,10条消息的ajax 100多k,这是在以前的爬取中没有遇到的,因为第一次遇到这么大的数据吧,耗费的时间有点多,不过操作一遍之后,还是很轻松就拿到想要的内容的。

另外附赠一下: 妹子图url的TXT文件

猜你喜欢

转载自blog.csdn.net/Qwertyuiop2016/article/details/83787632