[Java]知乎下巴第0集：让我们一起来做一个知乎爬虫吧哦耶 - 代码天地

[Java]知乎下巴第0集：让我们一起来做一个知乎爬虫吧哦耶

其他 2018-09-23 00:37:11 阅读次数: 0

身边的小伙伴们很多都喜欢刷知乎，当然我也不例外，

但是手机刷太消耗流量，电脑又不太方便。

于是，就诞生了这一款小软件：铛铛铛铛！知乎下巴=。=

知乎下巴，音译就是知乎下吧 ~

首先我们来缕一缕思绪，想想到底要做什么，列个简单的需求。

需求如下：

1.模拟访问知乎官网（http://www.zhihu.com/）

2.下载指定的页面内容，包括：今日最热，本月最热，编辑推荐

3.下载指定分类中的所有问答，比如：投资，编程，挂科

4.下载指定回答者的所有回答

5.最好有个一键点赞的变态功能（这样我就可以一下子给雷伦的所有回答都点赞了我真是太机智了！）

那么需要解决的技术问题简单罗列如下：

1.模拟浏览器访问网页

2.抓取关键数据并保存到本地

3.解决网页浏览中的动态加载问题

4.使用树状结构海量抓取知乎的所有内容

好的，目前就想了这些。

接下来就是准备工作了。

1.确定爬虫语言：由于以前写过一系列爬虫教程（点击这里），百度贴吧，糗事百科，山东大学的绩点查询等都是用python写的，所以这次决定使用Java来写（喂完全没有半毛钱联系好吗）。

2.科普爬虫知识：网络爬虫，即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛通过网页的链接地址来寻找网页。具体的入门介绍请（点击这里）。

3.准备爬虫环境：Jdk和Eclipse的安装和配置就不多说啦。这里啰嗦一句，一个好用的浏览器对于爬虫来说非常重要，因为首先你需要自己浏览网页知道你需要的东西在哪里，你才能告诉你的爬虫们去哪里怎么爬。个人推荐火狐浏览器，或者谷歌浏览器，它们的右键审查元素和查看源代码的功能都非常强大。

下面我们开始正式的爬虫之旅！~

欢迎各位小伙伴在Github提交PR：https://github.com/callmewhy/ZhihuDown

猜你喜欢

转载自blog.csdn.net/Mikefei007/article/details/52301459

[Java]知乎下巴第0集：让我们一起来做一个知乎爬虫吧哦耶

[Java]知乎下巴第2集：使用爬虫来获取知乎的编辑推荐内容

让我们一起来改变自己吧

让我们一起来做最漂亮的Android界面吧！

让我们一起来部署Nacos集群吧～

让我们一起来备战蓝桥杯与CCF-CSP吧

[Java]知乎下巴第4集：再把抓到篮子里的知乎塞到硬盘里吧

让我们一起来认识和学习一下MapReduce吧

让我们来做一个属于自己的浏览器主页吧！

让我们与星际联盟彭老师——一起来探究区块链的世界吧

ogg怎么转mp3格式？让我们一起来学习吧

[Java] 知乎下巴第5集：使用HttpClient工具包和宽度爬虫

[wp] HECTF2019 让我们一起来变魔术吧

让我们一起来了解什么是人工智能吧

让我们一起来学习Seata把！~~~~（一）

让我们一起云估算吧

我们一起来学RabbitMQ 五：RabbitMQ 应知应会的面试题

抽点时间让我们一起来学linux系统

[Java]知乎下巴第3集：来人啊快把知乎的答案装到篮子里去

一起来做一个简单的键盘吧

一起来做一个json格式化工具吧

教程传送：[Java] 知乎下巴第5集：使用HttpClient工具包和宽度爬虫。

我们发起了一个 FNX Fans，邀请你一起来

C#求100-999之间的水仙花数，你知道多少个？让我们一起来探索！

状态管理器这么火，让我们来做一个简单的redux原理解析吧(vuex类似)

让我们和python一起“动”起来

虚拟数字人是怎样炼成的？让我们一起来看看吧

趣挨踢 | 跳槽季，让我们一起攻克算法吧！

用Python做一个知乎沙雕问题总结

让我们一起走进Ajax

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)