通过微博搜索爬取微博

通过关键字搜索微博,只爬取原创的微博,转发的微博可以通过原文评论的地址找到原微博。微博默认显示最多页数是100页也就是max_page 其是通过表单的形式提交,来进行翻页。找到原微博地址后可以通过xpath解析出微博的用户,id,转发数,点赞数,评论数,发微博的时间以及微博内容,提取出来存到mongodb里。时间的格式可以自己写个函数格式化时间格式。搭配cookie池防止被封。

github地址:https://github.com/Danbro007/crawl_weibo

猜你喜欢

转载自blog.csdn.net/u014248032/article/details/83820335