解决mongod百万级数据去重

mongodb的表结构如下


注:图上看的眼花缭乱,这个是模拟生成环境下的数据,我不得不做了一些处理。

假定:图中表格数据操作100万条,以name和introduction为依据,对数据进行去重。

首先想到的是distinct,但这个是两个字段,不好处理。还有一个就是:数据量一旦大的时候,distinct不仅仅是性能下降的问题,而是会出现超出内存阈值的异常,直接导致这个功能使用不了。

"errmsg" : "distinct too big, 16mb cap",

对于mongodb我就是一个小白,百度了也没有找到,google又都是洋文(等我看懂了,估计我被炒鱿鱼回家了)。

其他不说,说了那么多也没人看,直接上代码。

db['mycollection'].aggregate([
	//对特定的字段分组
	{$group:{_id:{name:"$name", introduction:"$introduction"},total:{$sum:1}}},
	//过滤分组的字段,选择显示大于一条的数据
	{$match:{total:{$gt:1}}}, 
	//{$limit:2000}, 
	{$sort:{total:-1}},    //排序
 ],
 	//加上这个条件就是避免出现超出内存阈值的异常
	{ allowDiskUse: true }
 ).forEach(function(event) {
 	//对重复数据进行去重
 	var i = 0;
 	db['mycollection'].find({"name":event._id.name, "introduction":event._id.introduction, "delete": { $ne: "1" } }).forEach(function(n) {
 	  	if(i==0) {
 	  	  	//第一条数据不去重
 	  		print("_id"+n._id + "**name"+n.name);
 	  	};
 		if(i > 0) {
 		  	
 			//db['baike.figure_new'].update("_id", n._id, "delete":"1");		
 			//重复数据使用delete字段标注,验证该数据是否重复数据
 			db['baike.figure_new'].update({"_id":ObjectId(''+n._id+'')}, {$set:{"delete":"1"}});
 		};
 		i++;
 	});
 	//print(event._id.name + "  " + event._id.introduction);
 	
 })

代码中有注释,供大家参考。

代码在生产环境下验证过了,水平有限可能还存在错误和想给我建议,邮件:[email protected]

猜你喜欢

转载自blog.csdn.net/hello_ray/article/details/80772038
今日推荐