Flink分布式缓存Distributed Cache应用案例

转载自：https://blog.csdn.net/shenshouniu/article/details/84558874

欢迎加入大数据学习群：
**Flink学习视频：**http://edu.51cto.com/sd/88e07
在这里插入图片描述

1 分布式缓存

Flink提供了一个分布式缓存，类似于hadoop，可以使用户在并行函数中很方便的读取本地文件，并把它放在taskmanager节点中，防止task重复拉取。
此缓存的工作机制如下：程序注册一个文件或者目录(本地或者远程文件系统，例如hdfs或者s3)，通过ExecutionEnvironment注册缓存文件并为它起一个名称。当程序执行，Flink自动将文件或者目录复制到所有taskmanager节点的本地文件系统，仅会执行一次。用户可以通过这个指定的名称查找文件或者目录，然后从taskmanager节点的本地文件系统访问它

2 使用技巧

1：注册一个文件

  env.registerCachedFile("hdfs:///path/to/your/file", "hdfsFile")  

    
    
     
     1

2：访问数据

  File myFile = getRuntimeContext().getDistributedCache().getFile("hdfsFile");

    
    
     
     1

3 应用案例实战

3.1 在D盘创建一个文件discache.txt，并进行registerCachedFile

3.2 每一个TaskManager都会存在一份，防止MapTask重复拉取文件。

public class BatchDemoDisCache {
public static void main(String[] args) throws Exception{

    //获取运行环境
    ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

    //1：注册一个文件,可以使用hdfs或者s3上的文件
    env.registerCachedFile("d:\\discache.txt","a.txt");

    DataSource&lt;String&gt; data = env.fromElements("a", "b", "c", "d");

    DataSet&lt;String&gt; result = data.map(new RichMapFunction&lt;String, String&gt;() {
        private ArrayList&lt;String&gt; dataList = new ArrayList&lt;String&gt;();

        @Override
        public void open(Configuration parameters) throws Exception {
            super.open(parameters);
            //2：使用文件
            File myFile = getRuntimeContext().getDistributedCache().getFile("a.txt");
            List&lt;String&gt; lines = FileUtils.readLines(myFile);
            for (String line : lines) {
                this.dataList.add(line);
                System.out.println("discache:" + line);
            }
        }
        
        @Override
        public String map(String value) throws Exception {
            //在这里就可以使用dataList
            return value;
        }
    });
    result.print();
}

3.3 结果展示

discache:flink
discache:spark
discache:hadoop
discache:kylin
a
b
c
d

Flink分布式缓存Distributed Cache应用案例

1 分布式缓存

2 使用技巧

3 应用案例实战

3.1 在D盘创建一个文件discache.txt，并进行registerCachedFile

3.2 每一个TaskManager都会存在一份，防止MapTask重复拉取文件。

3.3 结果展示

4 总结收尾

猜你喜欢