mongodb遍历万亿级数据，论索引的重要性 - 代码天地

mongodb遍历万亿级数据，论索引的重要性

其他 2018-07-23 10:27:23 阅读次数: 0

【背景】有160万用户账号数据，200万终端账号数据，需要在160万用户账号数据中排除所有账号数据，那就需要遍历 160万 * 200万 = 3200000000000 次运算，3万2000亿次！

用mongodbimport的upsert 命令

mongoimport --db xxx --host xxx --port 27017 --username xxx--password xxx --collection xxx --type csv --headerline --upsertFields uid --file /data/xxx/xxx.csv --numInsertionWorkers 8

这个命令会把找到的数据替换调，举例：原有集合 uid，aa，bb xxx.csv 里面的数据 uid,cc 这个命令执行之后，新的集合数据为 uid，cc 数据被替换了，如果你想添加字段，弄成 uid，aa，bb，cc 这样，mongoimport这个命令貌似是不支持的，需要自己用程序实现。

言归正传，这个命令跑起来非常慢，一个小时更新几十k的数据，我突然想到用增加索引试一试，db.xxx.ensureIndex({"uid":1}); 没想到啊！这么命令执行之后，效果立竿见影，速度一下就上来了，剩下的数据，总共27.7MB （建序列之前，跑了2个多小时，跑了88KB） 40分钟跑完！

牛逼了！索引 32k亿次运算啊

猜你喜欢

转载自blog.csdn.net/carterslam/article/details/78789704

mongodb遍历万亿级数据，论索引的重要性

论数据库索引的重要性

论数据验证的重要性

索引的重要性

连阿里都在用它处理亿万级数据统计，论其对Java程序员的重要性！

论需求的重要性

论学习的重要性

论思路的重要性

论视图的重要性！！

论读书的重要性

论EXCEL的重要性

论方法论的重要性

干货 | 论Elasticsearch数据建模的重要性

论数据中心冗余备份重要性

数据的重要性

论重要性与任务性

论双1的重要性

论代码审查的重要性

论python库的重要性

论职业规划的重要性

论版本管理的重要性

论营销与技术的重要性

论解决方案的重要性

论敏捷开发重要性

论场景在研发中的重要性

论awk的重要性（基础）

论代码注释的重要性。

论代码规范的重要性

论专注的重要性（总结）

论数字相位计的重要性

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)