mapreduce实现数据去重 - 代码天地

mapreduce实现数据去重

其他 2020-03-20 00:17:34 阅读次数: 0

原文链接：

https://www.toutiao.com/i6764933201203823107/

概念：“数据去重”主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。

数据去重的最终目标是让原始数据中出现次数超过一次的数据在输出文件中只出现一次。在MapReduce流程中，map的输出<key,value>经过shuffle过程聚集成<key,value-list>后交给reduce。我们自然而然会想到将同一个数据的所有记录都交给一台reduce机器，无论这个数据出现多少次，只要在最终结果中输出一次就可以了。具体就是reduce的输入应该以数据作为key，而对value-list则没有要求（可以设置为空）。当reduce接收到一个<key,value-list>时就直接将输入的key复制到输出的key中，并将value设置成空值，然后输出<key,value>。

假如我们的数据源是：

目的：编写MapReduce程序，根据商品id进行去重，统计用户品中都有哪些商品。

我们先准备模拟生成数据，编写Java代码

创建一个项目，包结构和类如下

生成随机数

生成随机日期

编写IO

编写生成代码

数据生成

创建Maven项目

配置pom文件

创建数据去重类

编写Map和Reduce

打包项目

启动Hadoop

将数据上传

将数据上传到HDFS上

执行jar包

yarn jar /data/removal/removal-client.jar com.xlglvc.xxx.mapredece.removal.Removal /removalinput/data.txt /removaloutput

我们查看下效果

练习：我们可以再写一个mapreduce，统计里面有多少数据？

猜你喜欢

转载自www.cnblogs.com/bqwzy/p/12528462.html

mapreduce实现数据去重

MapReduce数据去重

使用Hadoop的MapReduce来实现数据去重

MapReduce初级案例——数据去重

MapReduce案例之数据去重

Mapreduce多条数据去重处理

Hadoop MapReduce开发--数据去重

MapReduce实例一之数据去重

大数据hadoop学习【13】-----通过JAVA编程实现对MapReduce的数据进行去重

mapreduce去重

MapReduce之去重

MySql数据查重、去重的实现

MapReduce数据分析（9）数据去重

mapreduce进行数据去重的简单案例

Linux下MapReduce编程之数据去重

MapReduce编程：单词去重

MapReduce实验01——去重

数据去重的几种实现形式

mapreduce 去重的问题怎么解决

MapReduce编程文件的合并和去重

mapreduce学习笔记二：去重实验

实验5 MapReduce初级编程实践（1）——编程实现文件合并和去重操作

实现数组去重

实现数组去重？

Java实现去重

js实现去重

vector实现去重

007_hadoop中MapReduce应用案例_1_数据去重

【MapReduce】数据去重、多表查询、倒排索引、单元测试等案例编程

mysql数据去重

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)