抓取百万级简书用户做数据挖掘 - 代码天地

抓取百万级简书用户做数据挖掘

其他 2018-05-29 19:02:40 阅读次数: 0

简书日活用户至少几十万，因此抓取简书的用户，一方面做数据分析和挖掘，另一方面，看看有哪些it同行，挖掘一些高质量的文章。

本文先分析抓取数据，结合抓取策略和scrapy框架，一步一步教你带你做爬虫和挖掘分析。

先说抓取思路。本文思路是选择一个大V，大v就是关注用户较多，粉丝也多的用户作为爬虫抓取入口，然后不断对其关注用户和粉丝用户抓取，再对关注用户和粉丝的关注用户和粉丝进行抓取，如此循环。

抓取函数入口：

    def start_requests(self):
        start_url = 'https://www.jianshu.com/u/811ae6268caa'
        yield Request(start_url, callback=self.parse)

parse函数式scrapy的回调函数，主要解析用户信息和用户发表的文章，同时解析出其关注列表和粉丝列表进行递归抓取。当然抓取列表显然是有多页的，而这在简书里面的体现在ajax异步加载，只在拖动下拉
的时候才会触发请求数据。这里拿到分页列表后，采取url拼接的方式构造分页请求。

followed_url = 'https://www.jianshu.com'+info_selectors[0].xpath("./div/a/@href").extract()[0]
        followed = info_selectors[0].xpath("./div/a/p/text()").extract()[0]
        pages = int(float(followed)/10)
        for page in range(1,pages+1):
            userlist_url = followed_url + '?page={page}'.format(page=page)
            yield Request(userlist_url, callback=self.parseuserlist, dont_filter=True)

同理抓取粉丝列表。抓取用户文章也一样。

 articles_url = 'https://www.jianshu.com' + info_selectors[2].xpath("./div/a/@href").extract()[0]
        articles = info_selectors[2].xpath("./div/a/p/text()").extract()[0]
        #抓取文章
        article_page= int(float(articles)/10)
        for page in range(1,article_page+1):
            articellist_url = articles_url + '?order_by=shared_at&page={page}'.format(page=page)
            yield Request(articellist_url, callback=self.parse_article_list, dont_filter=True)

这样既可抓取文章了。

猜你喜欢

转载自www.cnblogs.com/hd-zg/p/9106968.html

抓取百万级简书用户做数据挖掘

Scrapy实战篇（八）之简书用户信息全站抓取

python爬虫系列之数据存储实战：爬取简书用户文章列表并保存

用FlexGrid做开发，轻松处理百万级表格数据

小红书用户笔记数据分析报告

使用nodejs将某个简书用户的文章进行导出

批量导出某个简书用户的所有文章列表和文章超链接

python简书数据抓取

数据挖掘_多线程抓取

数据挖掘_多进程抓取

hibernate 处理百万级数据

[数据挖掘]用户画像

百万级用户量的站内信群发数据库设计

[转]百万级用户量的站内信群发数据库设计

【数据挖掘·简读】02 数据

数据挖掘_利用协程抓取

【数据挖掘·简读】01 引言

用bitSet做百万级ip去重

处理百万级以上的数据处理

百万级用户量的站内信设计

百万级用户量的站内信设计

如何设计一个百万级用户的抽奖系统？

python使用HTTP做数据抓取

BI工具怎么做数据挖掘？

谁说高颜值女神做不了技术？她偏做，还是百万级主链！

数据挖掘的前提---信息抓取：通用爬虫和聚焦爬虫

秒级展现的百万级大清单报表怎么做

秒级展现的百万级大清单报表怎么做？

2023年小红书用户种草转化新路径

小红书用户决策关键解析，品牌传播总结！

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)