大数据查重 - 代码天地

大数据查重

其他 2018-07-18 12:09:19 阅读次数: 0

大数据去重复/查重

经常会有大量的数据比如100G，要在内存为4G的处理器上进行查重和去重操作。

ConcurrentHashMap

数据量不大的时候可以采用concurrentHashMap来操作。

布隆过滤器

布隆过滤器是一种采用hash法进行查重的工具，它不是简单的做hash操作，而是将数据进行n次hash处理得到n个整数，将一个很长的数组的这n位从0设置为1。下次查找的时候经过同样的计算，如果这几个位置都是1则说明已经重复。

优点是使用方便，不需要存储k节省空间，多个hash算法无关，可以并发执行效率高。

缺点是可能出现错误，有误判率的概念。

BitMap　

2.5亿个整数中找出不重复的整数的个数，内存空间不足以容纳这2.5亿个整数。

一个数字的状态只有三种，分别为不存在，只有一个，有重复。因此，我们只需要2bits就可以对一个数字的状态进行存储了，假设我们设定一个数字不存在为00，存在一次01，存在两次及其以上为11。那我们大概需要存储空间几十兆左右。接下来的任务就是遍历一次这2.5亿个数字，如果对应的状态位为00，则将其变为01；如果对应的状态位为01，则将其变为11；如果为11，,对应的转态位保持不变。

最后，我们将状态位为01的进行统计，就得到了不重复的数字个数，时间复杂度为O(n)。

hash分组

如果有两份50G的数据，要查重，内存4G，怎么查？

想法是先将50G的数据分别做hash%1000，分成1000个文件，如果有重复，那么A和B的重复数据一定在相对同一个文件内，因为hash结果是一样的。将1000个文件分别加载进来，一一比对。

猜你喜欢

转载自blog.csdn.net/quinnnorris/article/details/81085734

大数据查重

大数据查重去重方案及性能优化

MySql数据查重、去重的实现

excel导入数据查重问题

如何设计大量数据查重

Mysql 表数据查重、去重操作

大数据求重

大数据排重

大数据查询优化方案

美团大数据查询技术

Java实现字典树处理海量数据查重

pandas索引的数据查找、排序和去重小结

pandas dataframe重复数据查看.判断.去重

大数据去重——位图

大数据List去重

大数据去重方案

数据处理|数据查重怎么办？去重，就这么办！

小特数据银行提供大数据查询服务

大数据_MySQL之DQL（数据查询语言）

大数据Doris（二十二）：数据查看导入

开源大数据查询分析引擎现状

SQL 大数据查询如何进行优化？

大数据查询——HBase读写设计与实践

Presto 0.206 发布，Facebook 开源的大数据查询引擎

mysql优化一：大数据查询添加索引

Hadoop中新型大数据查询引擎：Apache Calcite

PHP + Ajax处理大数据查询并导出Excel

Presto 0.220 发布，Facebook 开源的大数据查询引擎

大数据查询并导出文件的功能实现

大数据查询工具HBase读写设计与实践

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)