hive UDAF求平均值

最近做数据迁移项目，把聚合部分从kettle迁移到hadoop集群上，需要写很多聚合脚本
在论坛是看到alipay同事写过类似cube的UDAF,代码拿过来运行下报错，有几个地方没看多，而且没有注释，只好从基础开始看，自己搞一个，之前写过UDF所以入手还是听快的
准备：
1、实现自己的UDAF需要集成UDAF
2、至少有一个内部类，实现了org.apache.hadoop.hive.ql.exec.UDAFEvaluator
3、必须写 inin方法
4、并且有个方法名叫iterate（）参数任意，这个方法是函数入口
5、并且要有terminatePartial，merge，terminate，算上上面的共5个方法，下面一一讲解

public class Mean extends UDAF {

	public static class MeanDoubleUDAFEval implements UDAFEvaluator {
		public static class PartialResult {
			double sum;
			long count;
		}

		private PartialResult pResult;

		@Override
		public void init() {
			pResult = null;
		}

		public boolean iterate(DoubleWritable value) {
			if (value == null) {
				return true;
			}
			if (pResult == null) {
				pResult = new PartialResult();
			}
			pResult.sum += value.get();
			pResult.count++;
			return true;
		}

		public PartialResult terminatePartial() {
			return pResult;
		}

		public boolean merge(PartialResult other) {
			if (other == null) {
				return true;
			}
			if (pResult == null) {
				pResult = new PartialResult();
			}
			pResult.sum += other.sum;
			pResult.count++;
			return true;
		}

		public DoubleWritable terminate() {
			if (pResult == null) {
				return null;
			}
			return new DoubleWritable(pResult.sum / pResult.count);
		}
	}

inin（）函数可以用来做初始化操作，一般会将统计变量置空，重置内部状态
iterate方法是函数的入口，参数个数和类型和udaf实现功能息息相关
terminatePartial 需要部分聚集是调用该函数，因为计算是不同的数据块会分到不同的map端，计算之后再传输到reduce端，很多计算是可以在map后面继续计算一次，比如求最大值（求平均值则不可以），这个时候就会调用terminatePartial函数，函数必须返回一个封装了聚集计算当前状态的对象，传入reduce端
merge函数，数据传输到reduce端前调用该函数，所以入参必须和terminatePartial返回值相同
terminate函数：hive最终聚集时会调用terminate，返回计算结果

猜你喜欢