hive HQL数据库操作笔记01

分区(partition by)
        目的:加快数据查询:
        实现:依据某几个数据属性,设置分区;
              eg:依据时间和国家,9.1&CN;9.1&US;9.2 ...;
        形式:层级目录;
        实践:      

分桶 (clustered by)
        目的:更细粒度的划分数据,加快数据查询;
        实现:根据某一列属性(表本身属性),取每一条数哈希值,分到一个桶内;
        用于:数据抽样;加快表链接(join)
        实践:?      

查询操作:
        语句;
            链接join;
            排序order by;
        笛卡儿积?

        列转行&行转列:

        窗口函数:?
            窗口就是分析函数分析时要处理的数据范围


函数:
      内置:
          ........
      自定义函数UDF:
          命令行实现;
          编程实现(hive API);

猜你喜欢

转载自www.cnblogs.com/floakss/p/11470902.html