mongodb的表结构如下
注:图上看的眼花缭乱,这个是模拟生成环境下的数据,我不得不做了一些处理。
假定:图中表格数据操作100万条,以name和introduction为依据,对数据进行去重。
首先想到的是distinct,但这个是两个字段,不好处理。还有一个就是:数据量一旦大的时候,distinct不仅仅是性能下降的问题,而是会出现超出内存阈值的异常,直接导致这个功能使用不了。
"errmsg" : "distinct too big, 16mb cap",
对于mongodb我就是一个小白,百度了也没有找到,google又都是洋文(等我看懂了,估计我被炒鱿鱼回家了)。
其他不说,说了那么多也没人看,直接上代码。
db['mycollection'].aggregate([
//对特定的字段分组
{$group:{_id:{name:"$name", introduction:"$introduction"},total:{$sum:1}}},
//过滤分组的字段,选择显示大于一条的数据
{$match:{total:{$gt:1}}},
//{$limit:2000},
{$sort:{total:-1}}, //排序
],
//加上这个条件就是避免出现超出内存阈值的异常
{ allowDiskUse: true }
).forEach(function(event) {
//对重复数据进行去重
var i = 0;
db['mycollection'].find({"name":event._id.name, "introduction":event._id.introduction, "delete": { $ne: "1" } }).forEach(function(n) {
if(i==0) {
//第一条数据不去重
print("_id"+n._id + "**name"+n.name);
};
if(i > 0) {
//db['baike.figure_new'].update("_id", n._id, "delete":"1");
//重复数据使用delete字段标注,验证该数据是否重复数据
db['baike.figure_new'].update({"_id":ObjectId(''+n._id+'')}, {$set:{"delete":"1"}});
};
i++;
});
//print(event._id.name + " " + event._id.introduction);
})
代码中有注释,供大家参考。
代码在生产环境下验证过了,水平有限可能还存在错误和想给我建议,邮件:[email protected]