java程序员的大数据之路（11）：MapReduce的连接 - 代码天地

java程序员的大数据之路（11）：MapReduce的连接

其他 2018-09-04 03:43:28 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/K_Ohaha/article/details/78644093

Map端连接

在两个大规模输入数据集之间的map端连接会在数据到达map函数之前就执行连接操作。各个输入数据集必须被划分成相同数量的分区，并且均按相同的键排序。同一键的所有记录均会放在同一分区之中。

Reduce端连接

reduce端连接比map端连接更为常用，因为reduce端连接并不要求输入数据集符合特定结构。但是由于两个数据集均需经过MapReduce的shuffle过程，所以reduce端连接的效率要低一些。

边数据分布

“边数据”是作业所需的额外的只读数据，以辅助处理主数据集。为了使所有的map或reduce任务方便而高效的使用边数据，除了分布机制，还可以以静态字段的方式将边数据缓存在内存中。

分布式缓存

分布式缓拷贝机制能够在任务运行过程中及时的将文件和存档复制到任务节点以供使用。

工作机制

当用户启动一个作业，Hadoop将由-files和-archieves选项所指定的文件复制到jobtracker的文件系统。在运行任务前，tasktracker将文件从jobtracker的文件系统复制到本地磁盘，使任务能够访问文件。
tasktracker为缓存中的文件各维护一个计数器，用来统计文件被使用情况。任务即将运行时，被使用的文件的计数器加1，任务结束时，所有计数器减1.当计数器为0时，该文件可以从缓存中移出。缓存大小默认为10GB，可以通过local.cache.size属性设置，单位是字节。文件存放在tasktracker的${mapred.local.dir}/tackTracker/archive目录下。

猜你喜欢

转载自blog.csdn.net/K_Ohaha/article/details/78644093

java程序员的大数据之路（11）：MapReduce的连接

java程序员的大数据之路（14）：Pig Latin

java程序员的大数据之路（13）：Pig入门

java程序员的大数据之路（16）：Hive简介

好程序员大数据学习路线分享MAPREDUCE

java程序员的AI之路-大数据篇 hadoop安装

java程序员的大数据之路（15）：Pig Latin用户自定义函数

java程序员的大数据之路（12）：Hadoop的守护进程

2018年 Java程序员学习大数据最佳之路！

大数据时代下，程序员们的进军之路

Java 程序员之路

Java大数据之路--MapReduce(1)

好程序员大数据分享MapReduce中job的提交流程

好程序员大数据学习路线分享MapReduce全过程解析

好程序员大数据学习路线分享MapReduce全流程总结

好程序员大数据学习路线之mapreduce概述

黑马程序员-大数据入门到实战-MapReduce & YARN入门

Java程序员转型大数据开发

Java程序员转行大数据的优势

写给想从事大数据的Java程序员

最受Java程序员欢迎的大数据工具排名

Java程序员必备的10个大数据框架！

Java程序员学习大数据之HBASE

Java程序员学习大数据之HBASE(二)

java程序员成长之路

Java程序员的规划之路

Java程序员修炼之路

Java程序员进阶之路

Java程序员的成神之路

Java程序员的成长之路

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)