千万级别数据去重思路

其他 2020-08-08 10:42:00 阅读次数: 0

只是提供自己想的解决方案,如果大家有更好的方法,欢迎评论交流,谢谢!

1.前景概要

发生较多重复数据的是一个笔记同步接口导致的,由于判断数据是否入库只根据数据是否有主键来判断,有则更新,无则创建

导致的结果就是可能因为网络问题或其它因素导致手机端没有拿到同步结果,并激活了重试机制

每次同步就是当前这本书的所有笔记重新在走一遍同步步骤,最后导致数据库数据直接飙升

表数据有3kw+,由于历史原因,没有做分表处理,目前重复的数据结构是一个json字符串,所以字符会比较复杂,涉及特殊符号,中文名,balabala....

2.预防

优化传输数据结构,体积大小

手机端延长重试时间,以及重试次数,禁止失败后立即重试!做好失败的逻辑处理

服务端可对同步方法进行加锁,正常情况下数据不会太多导致同步时间过长

3.正题, 如何去重

1.将有重复数据的表先优化数据结构,优化体积大小,然后导入临时表

2.创建临时字段MD5,并计算需要去重的属性的值

3.直接将去重后的主键ID筛选出来

4.主表备份相关主键ID数据,然后直接删除

mysql本身不止提供了MD5函数

同时还提供了SHA1和SHA2计算

SHA2又包含了SHA-224, SHA-256,SHA-384,SHA-512

都是可以用来做hash计算,然后进行去重的

如果帮到你,请点个赞吧 O(∩_∩)O~

猜你喜欢

转载自blog.csdn.net/qq171563857/article/details/97812683

千万级别数据去重思路

Mysql千万级别数据存储优化

java千万级别数据生成文件思路和优化

Mysql 千万级别数据数据查询

千万级别数据表创建索引

Mysql千万级别数据批量插入insert

千万级别数据实时复杂统计效率优化

java千万级别数据处理 2 -千万级别FTP下载

mysql数据库千万级别数据的查询优化和分页测试

原创 mysql数据库千万级别数据的查询优化和分页测试

MYSQL千万级别数据量迁移Elasticsearch5.6.1实战

Solr8.0速成系列 | Solr挑战千万级别数据-备课细节 07

BATJ解决千万级别数据之MySQL 的 SQL 优化大总结

一张千万级别数据的表想做分页，如何优化？

BATJ解决千万级别数据之MySQL的SQL如何优化？本文详细讲解

mysql百万到千万级别数据量的优化方案

千万级别数据迁移从耗时3天优化到半个个小时

Mysql批量插入千万级别数据的配置和使用方式

爬虫去重思路

MySQL百万级别数据存储

Spring方法级别数据校验：@Validated

Mongodb亿级别数据操作

java代码实现MySQL数据库表千万条数据去重

php导出mysql数据表到excel实现（千万级别数据-以自己以前做的订单导出为demo给大家参考）

Mysql千万级别数据批量插入，性能提高 python中单个和批量增加更新的mysql（没有则插入，有则更新）

行人重识别数据集汇总

使用SimHash算法实现千万级文本数据去重插入（python版代码）

记录一次发送千万级别数量消息的定时任务优化

mysql数据去重

数据去重

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)