Hdfs之DistributedCache - 代码天地

Hdfs之DistributedCache

编程语言 2018-05-12 20:31:31 阅读次数: 1

在利用mapred分析大数据时，程序中常常会引入hdfs上一些“辅助数据”，通常的做法在mr的启动前加载这些数据形成cache以提高效率，而mr在大并发下去访问hdfs的同一文件可能存在性能瓶颈，DistributedCache可以帮助解决。

DistributedCache</code> is a facility provided by the Map-Reduce framework to cache files (text, archives, jars etc.) needed by applications.

添加cacheFile：

DistributedCache.addFileToClassPath(new Path(args[2]), conf);

cacheFile通过hadoop命令参数提供，args[2]是/group/tlog/resources/ipAppMapping.txt

在mapper或reducer中使用：

        @Override
        protected void setup(Context context) throws IOException, InterruptedException {
            Path[] localArchives = DistributedCache.getFileClassPaths(context.getConfiguration());
            FileSystem fs = FileSystem.get(context.getConfiguration());
            InputStream in;
            if (localArchives == null) {
                System.out.println("Load refources file form system class loader.");
                in = ClassLoader.getSystemResourceAsStream("ipAppMapping.txt");
            } else {
                in = fs.open(localArchives[0]);
            }
            if (in == null) {
                throw new RuntimeException("Resource file is not exist.");
            }
            BufferedReader reader = new BufferedReader(new InputStreamReader(in));
            //加载辅助数据
            reader.close();
        }

猜你喜欢

转载自luoshi0801.iteye.com/blog/1828019

Hdfs之DistributedCache

Hadoop 之分布式缓存的原理和方法——DistributedCache

DistributedCache In Hadoop

Hadoop DistributedCache

DistributedCache使用

Hadoop DistributedCache详解

Hadoop学习笔记--DistributedCache

hadoop之hdfs

hadoop学习之——hdfs

hdfs之checkpoint

hadoo之HDFS

HDFS 之 DataNode 详解

HDFS 之 Shell 操作

初学Hadoop之HDFS

Hadoop之--HDFS原理

Hadoop 之 HDFS的使用

hadoop之hdfs部署

Hadoop之HDFS入门

Hadoop之HDFS详解

Hadoop 之 HDFS原理

Hadoop系列之-HDFS

初识Hadoop之HDFS

HDFS之HA

HDFS之读流程

HDFS之安全模式

Hadoop之HDFS基础

Hadoop之HDFS操作

Hadoop 之 HDFS

HDFS之FileSystem类

HDFS之FileStatus类

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)