MySql百万级数据去重保留一份,一对多合并处理

最近帮运维组处理了一份急着上架的数据,大概有140万量,下面我们看一下是怎样处理的吧。

这批数据大部分都是重复的,经过处理的数据大概在30万左右,然后进行一对多合并处理,最后的数据量大概在1万左右。

下面提供了两种方法或思路,第一种思路是网上提供的比较多的一种,就是通过唯一性约束的字段进行排序,然后查询处理出来的这些数据都是重复数据的第一条,所以id必然是这些重复数据最小的,然后删除调这些重复数据中id不是最小的就可以得出筛选结果了。

当然数据上面设计到商业保密,这里我就自己创建一个demo了。

sql如下:

// 将重复数据的id最小的一条筛选出来,第二步进行删除
select id FROM haha
where CONCAT(namea,sex,num) in (
   SELECT CONCAT(namea,sex,num) FROM haha 
		GROUP BY CONCAT(namea,sex,num) 
		HAVING count(id> 1)
) 

//进行删除操作,删除冗余数据
DELETE FROM haha where id in (
select id FROM haha
where CONCAT(namea,sex,num) in (
   SELECT CONCAT(namea,sex,num) FROM haha 
		GROUP BY CONCAT(namea,sex,num) 
		HAVING count(id> 1)
) 
and id not in (
SELECT MIN(id) as id  FROM haha 
GROUP BY CONCAT(namea,sex,num) 
HAVING COUNT(id > 1)
))

当然写sql的过程中也遇到一些错误,

1、select * from  haha where id in (select id ,namea  from haha )  select in 的右边只能是id ,所以namea 应该去掉,另外,name在MySql中显示关键字,所以这个字段命名的时候要注意一下,避免引起不必的麻烦或者错误。

2、ERROR 1064 (42000): You have an error in your SQL syntax; check the manual that corresponds to your

这个错误是说sql语句中符号有错误,所以我们要检查一下标点符号,逗号是不是英文的,然后括号是不是多了或者少了

3、要注意的地方,MySql中是不允许直接删除调查询出来的数据的,所以我们这里查询出来的数据要存放在一个临时表中在删除

第二种方法,因为我们知道要处理的数据最终的结果大概在30万左右,这对于140万,去删除剩余的110万数据,显然我们只需要关注这30万数据就可以了,所以我们直接将查询出来的数据导入到一张新表里面,

create table finish as
select * FROM haha
where CONCAT(namea,sex,num) in (
   SELECT CONCAT(namea,sex,num) FROM haha 
		GROUP BY CONCAT(namea,sex,num) 
		HAVING count(id> 1)
) 

然后将数据进行1对多处理:

原数据是这样的:

结果如下:

猜你喜欢

转载自blog.csdn.net/IBLiplus/article/details/86561434