Hive 编程指南—笔记

1. 基础

1.1 Hive 解决问题的背景?

用户如何从一个现有的数据基础架构转移到 Hadoop 上,而这个基础架构是基于传统的关系数据库和 SQL 的?

Hive 提供了一个被称为 HQL 的 SQL 语言,来查询存储在 Hadoop 集群中的数据。

1.2 Hive 使用的场合是什么以及它的局限性?

Hive 最适合于数据仓库的应用程序,使用该应用程序进行静态数据分析,不需要快速响应给出结果,而且数据本身

不会频繁变化。

局限性

1. Hive 不适合记录级别的更新,插入或者删除操作,用户可以通过查询生成新表或者将查询结果导入到文件中

2. Hive 查询使用 MapReduce 实现,查询延时比较严重

3. Hive 不支持事务

2. 基础操作

2.1 描述下 Hive 中的元数据存储机制?

所有的 Hive 客户端都需要一个 metastoreservice 元数据服务, Hive 使用这个服务来存储表模式信息和其他元数据信息。

通常情况下会使用一个关系数据库中的表来存储这些信息,如默认的 Derby SQL 服务器或者 MySQL。

2.2 如何查看操作命令历史?

Hive 会将最近的 100,00 行命令记录放在文件 $HOME/.hivehistory 中。

2.3 在 Hive 中使用 hadoop 的dfs 命令

用户可以在 Hive CLI 中执行 Hadoop 的 dfs ... 命令,只需要将 hadoop 命令中的关键字 hadoop 去掉,然后以分好结尾就可以了。如 dfs -ls /;

2.4  Hive 脚本中如何进行注释?

用户可以使用以 -- 开头的字符串来表示注释

2.5 显示出字段的命令

 待续

猜你喜欢

转载自www.cnblogs.com/reycg-blog/p/9100240.html