MySQL表上亿级数据量实现删除重复记录 - 代码天地

MySQL表上亿级数据量实现删除重复记录

其他 2018-11-08 09:32:46 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/u012417405/article/details/82896707

上周从数据采集部门拿到一批400份的json文件,每个文件里30w+的json对象,对象里有uid,对重复的uid,需要去重下.

电脑配置4核8G

废话不多说,直接上干货.

1.创建表datatest5

CREATE TABLE `datatest5` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`val` varchar(16) DEFAULT NULL,
PRIMARY KEY (`id`),
KEY `val` (`val`)
) ENGINE=InnoDB AUTO_INCREMENT=57667550 DEFAULT CHARSET=utf8;

1.1 id是表的主键自增,val是需要去重的数据,为val建立索引 (建立索引,建立索引,建立索引)!!!

1.2 将12000w的uid从入到datatest5表中.(刚开始的时候20分钟跑完,建立索引后大概3个小时多,而且磁盘一直80%多)

2. 设置innodb缓冲池大小

2.1 show variables like "%_buffer%";-- 先查看下

SET GLOBAL innodb_buffer_pool_size=8388608; -- 系统值(保存起来,结束后修改回来)
2.2 SET GLOBAL innodb_buffer_pool_size=109051904;-- 修改值

3. 查询datatest5表总数据量

SELECT COUNT(0) ct from datatest5; -- 127351895

4. 查询分组后的表条数也就是我们的需求

SELECT COUNT(DISTINCT val) ct FROM datatest5;-- 97267435

5.创建datatest5_1表数据为重复的val和其对应id最大值

CREATE TABLE datatest5_1 AS ( SELECT a.val, MAX(a.id) maxid FROM datatest5 a, ( SELECT val FROM datatest5 GROUP BY val HAVING count(val) > 1 ) b WHERE a.val = b.val GROUP BY val ) ;

6.删除原datatest5表中所有重复的数据

DELETE a FROM datatest5 a,datatest5_1 a5 WHERE a.id<a5.maxid AND a.val=a5.val ;

7.统计表datatest5中的数据

SELECT COUNT(0) ct from datatest5 ; -- 97267435

8.对比第7步和第4步的结果,若一样就证明删除重复数据成功.

一共用时53分钟.

注意: 1.表一定要给重复值的字段建立索引 2.数据清洗完之后磁盘还是占用80%多的话,可以恢复innodb缓冲池大小或者将数据转存文件并删除datatest5表就好了.

借鉴文章

https://blog.qxzzf.com/135

https://blog.csdn.net/wuyang528378/article/details/49762875

https://zhidao.baidu.com/question/313665822.html

猜你喜欢

转载自blog.csdn.net/u012417405/article/details/82896707

MySQL表上亿级数据量实现删除重复记录

上亿级的大数据量，如何高性能实现展示分析？

用Java怎么实现有每天有1亿条记录的DB储存？MySQL上亿记录数据量的数据库如何设计？

Mysql 上亿级数据导入Hive思路分享

如何实现上亿级数据的精准计数？

mysql表删除重复记录方法

Mongodb亿级数据量的性能测试

Mongodb亿级数据量的性能测试（转）

mongoDB亿级数据量性能测试

MySQL亿级数据量实时同步，小米如何完美hold住

mysql删除重复记录/数据

mysql千万级数据量查询出所有重复的记录

SQL重复记录查询(转载) ,及对大数据量的重复数据优化

Kettle安装以及MySQL千万、亿级数据量迁移方案及性能优化 Kettle安装以及MySQL生产数据库千万、亿级数据量迁移方案及性能优化

Kettle--MySQL生产数据库千万、亿级数据量迁移方案及性能优化

mysql删除重复记录

mysql 删除重复记录

MySQL单表【亿级】数据量下的分页查询测试

mysql表中删除重复记录方法

MySQL查询表内重复记录并删除

MYSQL删除上亿条的大量数据的具体实现

mysql删除数据表中重复记录保留一条

删除数据库表中的重复记录

亿级数据量系统数据库性能优化方案

软件测试之Mongodb亿级数据量的性能测试（必看）

Mysql——删除数据库中的重复记录

oracle表关联删除重复记录

删除临时表中重复记录

删除表中重复记录的方式

如何删除表中重复记录

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)