hive UDAF求平均值

最近做数据迁移项目,把聚合部分从kettle迁移到hadoop集群上,需要写很多聚合脚本
在论坛是看到alipay同事写过类似cube的UDAF,代码拿过来运行下报错,有几个地方没看多,而且没有注释,只好从基础开始看,自己搞一个,之前写过UDF所以入手还是听快的
准备:
1、实现自己的UDAF需要集成UDAF
2、至少有一个内部类,实现了org.apache.hadoop.hive.ql.exec.UDAFEvaluator
3、必须写 inin方法
4、并且有个方法名叫iterate() 参数任意,这个方法是函数入口
5、并且要有terminatePartial,merge,terminate,算上上面的共5个方法,下面一一讲解
public class Mean extends UDAF {

	public static class MeanDoubleUDAFEval implements UDAFEvaluator {
		public static class PartialResult {
			double sum;
			long count;
		}

		private PartialResult pResult;

		@Override
		public void init() {
			pResult = null;
		}

		public boolean iterate(DoubleWritable value) {
			if (value == null) {
				return true;
			}
			if (pResult == null) {
				pResult = new PartialResult();
			}
			pResult.sum += value.get();
			pResult.count++;
			return true;
		}

		public PartialResult terminatePartial() {
			return pResult;
		}

		public boolean merge(PartialResult other) {
			if (other == null) {
				return true;
			}
			if (pResult == null) {
				pResult = new PartialResult();
			}
			pResult.sum += other.sum;
			pResult.count++;
			return true;
		}

		public DoubleWritable terminate() {
			if (pResult == null) {
				return null;
			}
			return new DoubleWritable(pResult.sum / pResult.count);
		}
	}

inin()函数可以用来做初始化操作,一般会将统计变量置空,重置内部状态
iterate方法是函数的入口,参数个数和类型和udaf实现功能息息相关
terminatePartial 需要部分聚集是调用该函数,因为计算是不同的数据块会分到不同的map端,计算之后再传输到reduce端,很多计算是可以在map后面继续计算一次,比如求最大值(求平均值则不可以),这个时候就会调用terminatePartial函数,函数必须返回一个封装了聚集计算当前状态的对象,传入reduce端
merge函数,数据传输到reduce端前调用该函数,所以入参必须和terminatePartial返回值相同
terminate函数:hive最终聚集时会调用terminate,返回计算结果

猜你喜欢

转载自songpo-ath-taobao-com.iteye.com/blog/1566467