用于爬取知乎某个话题下的精华问题中所有回答的爬虫 - 代码天地

用于爬取知乎某个话题下的精华问题中所有回答的爬虫

其他 2018-12-22 13:51:22 阅读次数: 0

思路

我的整个算法的思路还是很简单的，文字版步骤如下：
1、通过话题广场进入某个话题的页面，避免了登陆注册页面的验证，查找到对应要爬取的话题，从 url 中得到话题id
2、该页面的所有资源采用了延迟加载，如果采用模拟浏览器进行加载的话还是很麻烦，经研究后发现知乎有前后端数据传输的api，所以获取数据方面是基于知乎提供的api
3、设置 offset 和 limit，以及将爬取的评论用几个正则和简单的去重操作进行处理，就能开始获取数据并存储到数据库里

用法

1、进入某个话题，得到话题ID，拿西邮为例，url为：https://www.zhihu.com/topic/20019540/top-answers，
则得到话题id为 20019540，并在在 main 中修改对应变量值
2、在 ZhiHuCrawler.py 代码中设置 q_num （爬取的精华问题的个数）， ans_num （爬取的回答的问题个数）
3、在 saveMysql 方法中修改 mysql 的相关连接信息
4、执行该 ZhiHuCrawler 脚本

局限

1、知乎的反爬很简单，但是每年都在变，所以我版本适用于 2018 年的知乎，后续未知；
2、话题id只能手动获取，想改成非手动也很容易，可以拿上面的思路实现
3、去除脏数据时（评论去重）遇到了些困难还没有解决，比如对于恶意刷评论（内容重复），我们需要去重，但 mysql 中blog 长文本类型无法设置为唯一索引，所以现在设想解决方法有：
1、将评论编成 MD5 值
2、改用非关系型数据库实现去重，比如 Reddis

github

https://github.com/bw98/ZhiHu-Crawler

猜你喜欢

转载自www.cnblogs.com/Bw98blogs/p/10160781.html

用于爬取知乎某个话题下的精华问题中所有回答的爬虫

根据关键词组合，爬取知乎某个问题下所有含有关键词的回答

[Python 爬虫之路4] 使用selenium爬取知乎任意一个问题下，所有回答中的图片

Python爬取知乎单个问题下的回答

Scrapy爬取知乎所有问题和回答

Python爬虫对知乎问题下的图片进行爬取

爬虫爬取知乎的话题

Python爬去知乎上问题下所有图片

pyspider爬虫爬取知乎的话题

python：知乎发现页的爬取（问题，作者，回答）

python爬取知乎话题："日常穿jk制服是怎样一种体验？"下的所有图片

Python项目实战:实现简单爬取知乎问题下的图片

python实战1.0——爬取知乎某问题下的回复

爬虫系列（2）：暴力爬虫——基于selenium和xpath定位方法爬取某个话题下的微博内容

python爬虫实战（一）--爬取知乎话题图片

python爬虫：requests+pyquery实现知乎热门话题爬取

python爬虫实战（1）——爬取知乎热门回答图片

Python爬虫从入门到放弃（十九）之 Scrapy爬取所有知乎用户信息(下)

Python爬虫从入门到放弃（十八）之 Scrapy爬取所有知乎用户信息(上)

Python爬虫--爬取知乎

Python知乎热门话题数据的爬取实战

Python知乎热门话题爬取

python爬虫入门（2）爬取知乎某个热门主题

知乎问题图片爬取

我爬取了知乎上大学相关话题中的热门高赞问答，其中是否有你大学生活的影子呢？

有个漂亮女朋友是种怎样的体验？爬取知乎2.2亿的阅读量的话题

java---网络爬虫爬取知乎图片

爬虫---Beautiful Soup 爬取知乎热榜

python爬虫7---爬取知乎文章

python小爬虫，爬取文章（知乎专栏）片段

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)