pg数据库查询重复数据并可识别空数据列重复(二)--优化 - 代码天地

pg数据库查询重复数据并可识别空数据列重复(二)--优化

其他 2018-11-04 12:40:04 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/u011099093/article/details/78606548

在上一篇文章中，实现了查询重复数据与删除多余重复数据的sql编写：http://blog.csdn.net/u011099093/article/details/78596034；

但是经过导入百万数据测试，查询语句直接卡住没有结果，于是又花了一天时间对sql进行优化，在借鉴了如下地址的方法后，编写出优化后的查重及去重sql：

https://yq.aliyun.com/articles/68224#15

优化查询重复数据：SELECT A,B,C,D,E FROM( SELECT A,B,C,D,E,COUNT(*) OVER(PARTITION BY A,B,C )AS tmp FROM TABLE WHERE CONDITION) t WHERE t.tmp>=2;

优化处理重复数据：
DELETE FROM TABLE WHERE ID NOT IN(SELECT ID FROM
(SELECT MIN(ID) ID,A,B,C FROM TABLE WHERE CONDITION GROUP BY A,B,C HAVING COUNT(*)>1) C)
AND ID IN( SELECT ID FROM
(SELECT ID,COUNT(*) OVER(PARTITION BY A,B,C) AS tmp FROM TABLE WHERE CONDITION)t WHERE t.tmp>=2);

对于over partition的用法我真的不是很了解，而上述地址中对重复数据清洗讲的比较详细，有兴趣的同学可移步去看看。

-------------------------------------------11-29更新-------------------------------------------------------

经过比较发现使用row_number()函数替换count(*) 查重变得更快速,而这里查出的重复数据发生了改变，不再是所有重复数据，而是每种都保留1条未查出，所以对应的处理SQL也会发生改变：
DELETE FROM TABLE WHERE ID IN( SELECT ID FROM
(SELECT ID,ROW_NUMBER() OVER(PARTITION BY A,B,C) AS tmp FROM TABLE WHERE CONDITION)t WHERE t.tmp>=2);

ROW_NUMBER是一个对所查数据编号排序的函数所以如果上述查重及去重语句如果能在OVER(PARTITION BY A,B,C) AS tmp 中添加order by进行按字段排序，结果将更加准确；

猜你喜欢

转载自blog.csdn.net/u011099093/article/details/78606548

pg数据库查询重复数据并可识别空数据列重复(二)--优化

pg数据库查询重复数据并可识别空数据列重复

orcl数据库查询重复数据及删除重复数据方法

Oracle数据库查询重复数据及删除重复数据方法

查询数据库表重复数据

【转载】数据库中重复数据的查询

mysql查询数据库中出重复数据

查询数据库中的重复数据

查询重复数据

数据库删掉重复数据

数据库删除重复数据

清空数据库重复数据

数据库去除重复数据

数据库中查询列数据是否有重复

查询数据库中某一列值重复的数据，查询并删除重复的数据

mysql 查询重复数据

mysql查询重复数据

sql 查询重复数据

查询出重复数据

sqlserver 查询重复数据

mysql 查询重复与删除重复数据

Oracle查询重复数据与删除重复数据

SQL查询重复数据和清除重复数据

数据库查询数据去除重复

pandas重复数据与空值处理

解决查询MySQL数据库中重复数据的问题

查询oracle数据库是否有重复数据（根据多个字段判断）

Mysql数据库中根据某个或多个字段查询重复数据的sql语句

sql server数据库查询取出重复数据记录

excel筛选列中的重复数据

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)