Python3.6+Scrapy爬取知乎用户数据，保存到MongoDB和CSV文件 - 代码天地

Python3.6+Scrapy爬取知乎用户数据，保存到MongoDB和CSV文件

其他 2019-02-25 11:03:35 阅读次数: 0

最近写了一个爬虫，爬取知乎用户数据，将爬取的数据保存在一个csv文件和MongoDB数据库。经测试可以一次性爬取数万条数据，而不被ban掉。

代码见：https://github.com/wangjun1996/zhihuUser_spider

（运行项目中 zhihuUser/main.py 即可开始爬虫）

爬虫目标

爬虫要实现的内容有：

1.从一个大V用户开始，通过递归抓取粉丝列表和关注列表，实现知乎所有用户的详细信息的抓取。

2.将爬取的数据保存在一个csv文件和MongoDB数据库

思路分析

每个人都有关注列表和粉丝列表，尤其对于大V来说，粉丝和关注尤其更多。

如果从一个大V开始，首先可以获取他的个人信息，然后获取他的粉丝列表和关注列表，然后遍历列表中的每一个用户，进一步抓取每一个用户的信息还有他们各自的粉丝列表和关注列表，然后再进一步遍历获取到的列表中的每一个用户，进一步抓取他们的信息和关注粉丝列表，循环往复，不断递归，这样就可以做到一爬百，百爬万，万爬百万，通过社交关系自然形成了一个爬取网，这样就可以爬到所有的用户信息了。通过分析知乎的请求就可以得到相关接口，通过请求接口就可以拿到用户详细信息和粉丝、关注列表。

开发环境

Python3

本项目使用的 Python 版本是 Python3.6

Scrapy

Scrapy 是一个强大的爬虫框架

生成的CSV文件

爬虫数据字段说明

name：用户名

headline：标题

description：个人简介

url：个人主页

url_token：用来制作url的用户名参数

gender：性别。“1”表示男，“0”表示女

badge：个人成就

locations：居住地

educations：教育经历

business：所在行业

employments：公司

job：工作岗位

answer_count：回答数

articles_count：文章数

favorite_count：收藏数

favorited_count：被收藏数

follower_count：粉丝数

following_columns_count：关注的专栏数

following_count：该用户关注了多少人

pins_count：想法数

question_count：提问数

thanked_count：获得感谢数

voteup_count：获赞数

following_favlists_count：关注的收藏夹数

following_question_count：关注的问题数

following_topic_count：关注的话题数

marked_answers_count：知乎收录的回答数

猜你喜欢

转载自blog.csdn.net/weixin_42762089/article/details/84765962

Python3.6+Scrapy爬取知乎用户数据，保存到MongoDB和CSV文件

PHP爬虫之百万级别知乎用户数据爬取与分析

PHP爬虫：百万级别知乎用户数据爬取与分析

Python爬虫学习6：scrapy入门（一）爬取汽车评论并保存到csv文件

Scrapy 爬取知乎用户信息

Scrapy爬取知乎用户信息

将scrapy爬取数据保存到mysql数据库和mongodb数据库

scrapy+ selenium的小案例两则，爬取食品药品监管和twitter用户数据。

scrapy爬取数据保存csv、mysql、mongodb、json

【python】爬取知乎热榜Top50保存到Excel文件中【附源码】

python3.6+scrapy 1.5爬取网站一个简单实例

利用Scrapy爬取所有知乎用户详细信息并存至MongoDB（附视频和源码）

Scrapy爬取并保存到TXT文件

Python2 根据知乎小视频的url爬取视频保存到本地

Python Scrapy爬取并保存到Mysql

Scrapy 爬取快代理免费代理ip保存到文件和MySQL数据库

scrapy爬取知乎

Github API：爬取Github用户数据

利用 Scrapy 爬取知乎用户信息

爬取百万github用户数据，查找谁才是python大牛？

scrapy框架爬取图片保存到本地或mongodb的写法

python3.6+pyspider实现知乎和v2ex的爬取

Scrapy爬取知乎所有问题和回答

利用Scrapy博彩源码下载爬取所有知乎用户详细信息并存至MongoDB

python爬取猫眼电影 top 100 保存到CSV

用Python爬取51job保存到CSV

python爬取豆瓣读书保存到csv

python爬取当当网的书籍信息并保存到csv文件

scrapy爬取数据保存到mysql数据库

Scrapy框架：爬取知乎

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)