全网微博数据每日亿级实时采集

编程语言 2018-12-21 19:59:15 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/nghuyong/article/details/85160577

前言

做微博数据抓取有很长一段时间了，最近把这样任务做到了极致。
简单的说，就是，现在全网任何活跃用户发送的一条微博，能够实时抓取到并存入本地数据库。
这项工作对微博网络舆情的监控预警，有非常重大的意义.
下面是针对这项工作的测试数据，已经可以达到对于全网5.5千万活跃用户上亿微博的实时微博采集。
如果对微博舆情监控有需求，可以进行合作，联系方式:[email protected]

实验数据

硬件配置

2台服务器，每台的配置如下

系统	CPU	内存	硬盘
Ubuntu16.04	E5-2630 v4 @ 2.20GHz * 8	32G	1T

抓取速度

每台服务器满负荷运转:

在这里插入图片描述

每台服务器启动50个爬虫进程，两台共100个爬虫进程

每个进程的抓取情况:

在这里插入图片描述

可以看到每个进程，每分钟可以抓取300+页面。那么，一天共可以抓取：

300(pages/(process*min)) * 100(prcesses) * 60*24(mins/day) = 43,200,000(pages/day)

所以一天可以抓取4.3千万的页面

如果抓取用户个人信息，1(data/page) ，

则一天的数据抓取量是 43,200,000(pages/day) * 1(data/page) = 43,200,000(data/day) 4.3千万

如果抓取用户微博数据，10(data/page) ，

则一天的数据抓取量是 43,200,000(pages/day) * 10(data/page) = 432,000,000(data/day) 4.3亿

数据库统计

MongoDB IO量

在这里插入图片描述

每秒4500+的数据插入量,所以一天就是4亿+的数据采集入库量

用户个人信息数据

微博用户id采用海量采集的方式，目前已经拥有5.5千万有效真实用户的微博id，并且在不断增长中

发掘id	有效id	有效比率
97,267,435	55,832,401	0.574

用户微博数据

实时抓取5.5千万+有效用户的微博,数据统计

微博发表日期为11.20~11.24日之间的微博

11.20	11.21	11.22	11.23	11.24
13,864,359	18,438,460	18,866,072	18,143,923	11,351,606

当前数据库总量：537,475,459 (5亿)

数据展示

用户数据
在这里插入图片描述
微博数据

猜你喜欢

转载自blog.csdn.net/nghuyong/article/details/85160577

全网微博数据每日亿级实时采集

基于亿级微博数据的数据仓库的构建和热词挖掘

微博数据采集（爬虫）看到赚到

亿级用户下的新浪微博平台架构

千万级微博语料数据

新浪微博数据采集以及分析方法（干货）

Redis实战：如何构建类微博的亿级社交平台

构建类微博的亿级社交平台高性能Redis技术精讲

支撑微博亿级社交平台，小白也能玩转Redis集群(实战篇)

支撑微博亿级社交平台，小白也能玩转Redis集群(原理篇)

微博实时话题和搜索微博实时抓取

亿级大表毫秒关联，荔枝微课基于腾讯云数据仓库Doris的统一实时数仓建设实践...

日均百亿级日志处理：微博基于 Flink 的实时计算平台建设

【每日新闻】微盟上市；这个初创公司获近亿元级融资！

使用Python实现疫情每日采集(数据来源与腾讯新闻实时疫情)

新浪微博信息采集发布教程

亿级视频内容如何实时更新？

5 亿微博数据疑泄露，Python 爬虫如何避免踩天坑？

5亿微博隐私数据被爆遭泄漏始末，国际暗网正在火爆交易

5亿微博用户信息泄露背后：BTC与暗网数据的纠缠

微博发布除夕及春晚大数据：活跃用户数达2.89亿

MySQL亿级数据量实时同步，小米如何完美hold住

亿级搜索系统的基石，如何保障实时数据质量？

微博数据挖掘

亿级大表毫秒关联，荔枝微课基于Apache Doris 统一实时数仓建设实践

python 爬取微博实时热搜，并存入数据库实例

如何用elasticsearch构架亿级数据采集系统（第1集：非生产环境windows安装篇）

亿级数据落地

亿级mongodb数据迁移

获取微博广告博文数据

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)