在spark udf中读取hdfs上的文件

某些场景下,我们在写UDF实现业务逻辑时候,可能需要去读取某个配置文件。

大多时候我们都会将此文件上传个hdfs某个路径下,然后通过hdfs api读取该文件,但是需要注意:

  UDF中读取文件部分最好放在静态代码块中(只会在类加载时候读取一次),尤其在处理的数据量比较大的时候,否则会反反复复的读取,造成不必要的开销,甚至任务失败,示例代码如下:

package cn.com.dtmobile.udf;

import java.util.HashMap;

import org.apache.spark.sql.api.java.UDF2;

import cn.com.dtmobile.util.HdfsUtil;

public class CalculateRsrp implements UDF2<Double, String, Double> {

    private static final long serialVersionUID = 1L;

    private static HashMap<String,Double> paramteres = null;
    static {
        paramteres = HdfsUtil.readHdfsFile("your file location");
    }
    
    @Override
    public Double call(Double t1, String t2) throws Exception {

        // 处理逻辑
        
        return null;
    }

}

猜你喜欢

转载自www.cnblogs.com/dtmobile-ksw/p/11468557.html