【Hive】MACRO (宏) 的使用

项目中用到了宏,实现的功能是计算一个值在其最小值和最大值之间的百分比,如下:

-- macro to calculate the percentage a value between its min & max values
CREATE TEMPORARY MACRO percentageValue(value double, min_value double, max_value double)
  CASE
    WHEN value IS NULL OR min_value = max_value THEN 0.5
    ELSE (value - min_value) / (max_value - min_value)
  END;

其实在编写HQL的过程中,我们会有很多逻辑需要反复使用。这时我们可以使用宏对这段逻辑进行提炼,起到优化开发效率、提升程序可读性的效果(尤其是括号嵌套很多层、case-when嵌套很多层的时候)。举个例子:

create temporary macro sayhello (x string) concat('hello,',x,'!');
select sayhello('程序员'); --输出:hello,程序员!

在上面的的代码中,首先我们定义了一个名为sayhello的宏,输入参数为一个字符串x,输出为对x的拼接。如果之后还需要向HR问好,只要输入sayhello(‘HR’)即可。

显而易见,我们可以把宏当做一个自定义“函数”,其开发过程与UDF相比更加简捷。

下面分享几个我在工作中常用的宏:

一、有关空值的处理

1. 空串转NULL

create temporary macro empty2null (x string) if(trim(x) = '', null, x);

使用场景:在使用coalesce或nvl时,如果前一个参数为空串,则无法取到后面的参数。若按照如下的写法

nvl(empty2null(a),empty2null(b))

则在a为空串时返回b的值,如果b为空串或NULL,则返回NULL。

在这个例子中,我们不只节省了编写代码的时间,而且不用再耗费精力去调研a或b是否有可能是空串了,只要无脑按这种方式编写代码即可。类似地,对于数值型字段,我们可以编写0转NULL的宏。

2. NULL转空串

create temporary macro null2empty (x string) if(x is null, '', x);

使用场景1:当使用concat拼接两个字段时,只要一个为NULL,则输出也为NULL。这时如果我们想让输出不为NULL,则可以将NULL转为空串。同样地,再也不用耗费精力去调研两个字段是否有可能是NULL了。

使用场景2:统一输出,如case-when众多分支的输出既含NULL又含空串。

3. 判断NULL和空串

create temporary macro nn(x string) nvl(trim(x),'') = '';

如果x为NULL或空串,则返回true。个人觉得该逻辑还是非常常用的,所以就写了这样一个宏,命名简单,连敲两下n即可。

进一步:

create temporary macro nn2rand (x string) case when nn(x) then concat('hive',rand()) else x end;

顾名思义,nn2rand,把NULL和空串转为随机串。当遇到由“key=NULL或空串”引起的数据倾斜问题时,应把key转化为随机字符串,使得这部分记录均匀地分配到各个reduce中。

二、有关时间的计算

1. 上个月第一天

create temporary macro firstDayLastMonth (x string) trunc(add_months(x,-1),'MM');

传入CURRENT_DATE即可。之所以写这样一个宏,是因为使用firstDayLastMonth这样的命名能让程序更加易读。

2. 上个月最后一天

create temporary macro lastDayLastMonth (x string) last_day(add_months(x,-1));

传入CURRENT_DATE即可。理由同上。

3. 时间差

create temporary macro hourdiff (x string, y string) hour(x)-hour(y)+(datediff(x,y))*24;

返回两个时间点相差几小时

4. 日期处理

create temporary macro properdt (dt string) concat_ws('-',split(dt,'/')[0],lpad(split(dt,'/')[1],2,'0'),lpad(split(dt,'/')[2],2,'0'));

它的功能是将2019/1/1变为2019-01-01。其中2019/1/1为excel常用格式,而2019-01-01为hive表中常用格式。若需要将本地文件上传至hdfs并在hive中查询,可以考虑使用。

5. 时间比较

create temporary macro earliest (x string, y string) least(empty2null(x),empty2null(y));

令time1和time2为两种时间字段,均为string类型,用空串表示缺失。现在的需求是,选出两个时间点较早的那一个。如果直接选择最小值,那么当time1为空串时一定输出空串(因为空串比所有字符串都小),但若此时time2不为空串,明显应该取time2作为结果。这时可以使用上面的宏,将空串转为NULL后再取最小值。

三、数学计算

create temporary macro halfceil (x decimal) 
case 
    when x = floor(x) then x
    when x - floor(x) <= 0.5 then floor(x) + 0.5
    else ceil(x)
end;

功能:按0.5向上取整。例如1.2变成1.5,1.7变成2.0,而1.5、2.0保持不变。有了宏,再长的数学公式都可以单行实现。

发布了334 篇原创文章 · 获赞 227 · 访问量 8万+

猜你喜欢

转载自blog.csdn.net/BeiisBei/article/details/104803791