Hive之UDF解释

UDF全称:

比如你需要使用hive的函数来处理一些记录,像count(), sum()这都是内置的,写好的,如果我想自定义一些函数,就可以写UDF来完成,相当于在Hive的sql中自定义了一些函数
UDF必须使用java编写,因为Hive本身是用java编写的.

init()方法主要负责初始化计算函数并重设它的内部状态. 在MaximumIntUDAFEvaluator中,我们把存放最终结果的IntWritable对象设置为null.我们使用null来表示目前还没有对任何值进行聚集计算,这和对空集null计算最大值应有的结果是一致的
iterate()方法每次对一个新值进行聚集计算时都会调用iterate()方法.计算函数要根据聚集计算的结果更新其内部状态.iterate()接受的参数和Hive中被调用函数的参数是对应的.
terminatePartial()方法 Hive需要部分聚集结果时会调用terminatePartial()方法.这个方法必须返回一个封装了聚集计算当前状态的对象.
merge()方法在Hive决定要合并一个部分聚集值和另一个部分聚集值时会调用merge()方法.该方法接受一个对象作为输入.这个对象的类型必须和terminatePartial()方法返回的类型一致.
terminate()方法 Hive需要最终聚集结果时会调用terminate()方法,计算函数需要把状态作为一个值返回.

将用java写好的UDF函数编译后的Java类打包为一个JAR文件,并在Hive中注册这个文件
hive>add jar /path/test.jar;
hive>create temporary function strip as 'com.hadoop.hive.Strip';　　//给写好的UDF中的Strip类起一个别名
hive>select strip("test") from table1; //使用UDF