Hive笔记二

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/ld3205/article/details/84846466

HiveQL的增删改查:

增:

在MYSQL中,我们使用INSERT语句插入数据。但在Hive中,可以使用LOAD DATA语句插入数据。(Insert也可以哦)

同时将数据插入到Hive,最好是使用LOAD DATA来存储大量记录。有两种方法用来加载数据:一种是从本地文件系统,第二种是从Hadoop文件系统。

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)

 

删:

DROP TABLE [IF EXISTS] table_name;

改:

ALTER TABLE name RENAME TO new_name

ALTER TABLE name ADD COLUMNS (col_spec[, col_spec ...])

ALTER TABLE name DROP [COLUMN] column_name

ALTER TABLE name CHANGE column_name new_name new_type

ALTER TABLE name REPLACE COLUMNS (col_spec[, col_spec ...])

查:

SELECT [ALL | DISTINCT] select_expr, select_expr, ...

FROM table_reference

[WHERE where_condition]

[GROUP BY col_list]

[HAVING having_condition]

[CLUSTER BY col_list | [DISTRIBUTE BY col_list] [SORT BY col_list]]

[LIMIT number];

连接:(建立在两个表有相同的列的基础上,即两个表的结构相同)

内连接:

内连接进行等值连接,只有当两个表中指定的属性相同的前提下才可以进行连接,eg:

SELECT sales.*,things.* FROM sales JOIN things ON (sales.id = things.id);

外连接:外连接可以找到连接表中不能匹配的数据行。

又分为左外连接,右外连接,全外连接;

左外连接:即左侧表中有些行无法与所要连接的表中的任何数据行对应,查询还是会返回这个表中的每一个数据行。

SELECT sales.*,things.* FROM sales LEFT OUTER JOIN things ON (sales.id = thing.id);

右外连接:即右侧表中有些行无法与所要连接的表中的任何数据行对应,查询还是会返回这个表中的每一个数据行。

SELECT sales.*,things.* FROM sales RIGHT OUTER JOIN things ON(sales.id = thing.id);

全外连接:即两个连接表中的所有行在输出中都有对应的行。

SELECT sales.*,things.* FROM sales FULL OUTER JOIN things ON(sales.id = thing.id);

视图:

视图是一种用SELECT语句定义的虚表,视图可以用来以一种不同于磁盘实际存储的形式把数据呈现给用户,同时,视图也可以用来限制用户,使其只能访问被授权可以看到的表的子集。eg:

CREATE VIEW view_name

AS

SELECT *

FROM XXX

WHERE xxx=xxx AND XXX IN(XXX);

用户自定义函数:

当我们使用Hive提供的内置函数的时,发现并不能有效的解决我们的问题时,我们可以编写用户自定义函数(UDF),UDF必须用Java语言编写,因为Hive本身就是用Java编写的,对于其他的编程语言,可以考虑使用SELECT TRANSFORM查询。Hive有三种UDF(UDF,用户定义聚集函数,用户定义表生成函数)区别是:它们所接受的输入和产生的输出的数据行的数量不同。

UDF操作用于单个数据行,且产生一个数据行作为输出。

DDAF接受多个输入数据行,且产生一个输出数据行,例如COUNT,MAX这样的函数

UDTF操作用于单个数据行,且产生多个数据行(即一个表)作为输出。

UDF:

⑴使用Java编写UDF函数

package com.dong.hive;

import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;
/**
 * UDF必须满足两个条件:
 * 一个UDF必须是org.apache.hadoop.hive.ql.exec.UDF的子类
 * 一个UDF必须至少实现了evaluate()方法
 * 
 * evaluate()方法不是由接口定义的,因为它可接受的参数的个数,数据类型,返回值的数据类型都是不确定的,
 * Hive会检查UDF,看能否找到和函数调用相匹配的evaluate()方法。
 * @author liuD
 *
 */
public class Strip extends UDF{
	private Text result = new Text();
	
	public Text evaluate(Text str) {
		if(str == null) 
			return null;
		result.set(StringUtils.strip(str.toString()));
		return result;
	}
	
	public Text evaluate(Text str,String stripChars) {
		if(str == null)
			return null;
		result.set(StringUtils.strip(str.toString(),stripChars));
		return result;
	}
}

⑵注册函数

在Hive中要想使用UDF,需要把编译后的Java类打包成一个JAR文件,然后再metastore中注册这个函数并使用CREATE FUNCTION语句为它起名:

CREATE FUNCTION strip As 'com.dong.hive.Strip' USING JAR '/XXX/XXX.jar';

⑶使用UDF函数

SELECT strip('xx') FROM TEST;

⑷删除函数

DROP FUNCTION strip;

注意:可以创建一个在会话期有效的函数,即扎个函数并没有在metastore中持久化存储。

ADD JAR /XXX/XXX.jar CREATE TEMPORARY FUNCTION strip AS 'com.dong.hive.Strip';

UDAF:

⑴使用Java实现UDAF函数

package com.dong.hive;

import org.apache.hadoop.hive.ql.exec.UDAF;
import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;
import org.apache.hadoop.io.IntWritable;
/**
 * 
 * 要求UDAF必须是org.apache.hadoop.hive.ql.exec.UDAF的子类,且包含一个或多个嵌套的,
 * 实现了org.apache.hadoop.hive.ql.UDAFEvaluator的静态类,
 * 
 * 注意:一个计算函数必须实现下面5个方法:
 * init()方法:负责初始化计算函数并重新设置它的内置状态
 * iterate()方法:每次对一个新值进行聚集计算时都会调用iterate()方法,计算函数根据聚集计算的结果更新其内部
 * 状态。
 * terminatePartial()方法:hive需要部分聚集结果的时会调用terminatePartial()方法,这个方法返回
 * 一个封装了聚集计算当前状态的对象。
 * merge()方法:合并一个部分聚集值和另一个部分聚集值时会调用merge方法,该方法接受一个对象作为输入,这个对象
 * 的类型必须和terminatePartial()方法的返回类型一致。
 * terminate()方法:Hive需要最终聚集结果时会调用terminate()方法,计算函数需要把状态作为一个值返回。
 * @author liuD
 */
public class Maximum extends UDAF{
	public static class MaximumIntUDFAEvaluator implements UDAFEvaluator{

		private IntWritable result;
		
		@Override
		public void init() {
			// TODO Auto-generated method stub
			result = null;
		}
		
		public boolean iterate(IntWritable value) {
			if(value == null)
				return true;
			if(result == null) {
				result = new IntWritable(value.get());
			}else {
				result.set(Math.max(result.get(), value.get()));
			}
			return true;
		}
		public IntWritable terminatePartial() {
			return result;
		}
		public boolean merge(IntWritable other) {
			return iterate(other);
		}
		public IntWritable terminate() {
			return result;
		}
	}
}

剩下的步骤和UDF一样;

我们可以创建一个在会话期间有效的函数,eg:

CREATE TEMPORARY FUNCTION maximum AS 'com.dong.hive.Maximum';

使用函数:

SELECT maximum(temperature) FROM records;

UDTF:

后期更新。

 

内容参考《Hadoop 权威指南》

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

猜你喜欢

转载自blog.csdn.net/ld3205/article/details/84846466