基于 webmagic 的知乎爬取[GitHub]

其他 2018-12-13 15:13:16 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/kiss_xiaojie/article/details/78228507

ZhiHuCrawler（基于 `webmagic` 的知乎爬取）

简介

GitHub 地址
出于兴趣想要分析一下知乎，所以爬取了一些知乎的数据。爬取的数据主要有三种：
- 某种话题（如互联网、软件工程）下的问题
- 知乎大V（如张佳玮、李开复等）
- 大V回答

模块

主要分两个模块：

话题问题爬取（ZhiHuTopics package）

该模块主要爬取某话题下的 Question ，比如爬取 软件工程 下的问题。爬取的结果如下：

url:    https://www.zhihu.com/question/66519221
标题: 腾讯开发微信花了多少钱？真的技术难度这么大吗？难点在哪里？
关注者:    2955
浏览人数:   1288594

【注】：这里由于我不需要 问题回答 ，故没有爬取 用户回答 。其实，在此基础上修改一下很容易得到 用户回答 内容。

该模块下爬取内容的输出为 txt 文件。

该模块的使用案例，请参考 Crawler 类中 main() 方法。

大v爬取 (VAnalysis package)【未添加注释。。。】

该模块爬取的数据可分为两类：

知乎大v 【案例】: VUserCrawler 类中 main()

大V回答 【案例】: VAnswerCrawler 类中 main()

该模块爬取的结果输出到 MySQL 数据库。其中，使用了 Hibernate 方便、优化了输出。

相关

如果需要修改，请先了解 WebMagic。WebMagic 是一个开源的Java垂直爬虫框架。
为防止知乎锁 IP ，爬取速度不是很快。我在爬 top100大v的回答（8w+数据）时大约使用了 2天 17小时。

关于

IntelliJ IDEA 2017.1
Build #IU-171.3780.107, built on March 22, 2017
Licensed to kissx

JRE: 1.8.0_112-release-736-b13 amd64
JVM: OpenJDK 64-Bit Server VM by JetBrains s.r.o
Windows 10 10.0

猜你喜欢

转载自blog.csdn.net/kiss_xiaojie/article/details/78228507

基于 webmagic 的知乎爬取[GitHub]

基于webmagic的爬虫小应用--爬取知乎用户信息

webmagic爬取图片

java + webmagic 静态爬取知乎列表信息，下个版本将给大家介绍如何动态爬取列表信息

学习用java基于webMagic+selenium+phantomjs实现爬虫Demo爬取淘宝搜索页面

基于webmagic爬虫的简单编写

WebMagic爬图片

webmagic爬虫自学（三）爬取CSDN【列表+详情的基本页面组合】的页面，使用基于注解的方式

WebMagic

WebMagic爬取应用市场应用信息

webMagic--注解爬取数据

使用WebMagic框架爬取京东数据

使用webmagic爬小说初试

Java 基于WebMagic 开发的网络爬虫

基于Webmagic框架的爬虫小Demo

基于java的爬虫框架webmagic基本使用

八、学习爬虫框架WebMagic（四）---使用webmagic+Selenium爬取小说

七、学习爬虫框架WebMagic（三）---webmagic+Selenium爬取动态页面

webmagic是个神奇的爬虫（二）-- webmagic爬取流程细讲

java爬虫WebMagic框架爬取小姐姐的图片

好用的java爬虫框架webmagic爬取CSDN

利用WebMagic的Cookie机制进行页面爬取

JAVA爬虫框架WebMagic爬取ajax请求的页面数据

JAVA编程134——webmagic爬虫爬取网页招聘信息

webMagic入门案例 -- 爬取微博热搜

[Java爬虫-WebMagic]-04-处理爬取的结果

[Java爬虫-WebMagic]-05-多级爬取

学习使用Java的webmagic框架爬取网页内容

Java 爬取 51job 数据 WebMagic实现

WebMagic简单爬取Bilibili网页数据

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)