企业hive优化

hive的优化策略:主要有3个方面的优化方案

     1>架构层面的优化:分表:日志表中都有很大的数据量,主要来源是nginx监控服务器,将日志数据拉去到指定的文件中,利用大数据抽取工具flume将定时监控该文件,将文件中的数据定时抽取到hdfs文件系统上,一般是一天晚上抽取,便于第2天的分析,这些数据就应该分表存储,有没有用的数据分表出去,便于以后的使用

                                 合理的利用中间见过表,熟悉表与表之间的亲缘关系,在很多公司查询中间数据的时候往往就会丢失,我认为这样很不好,因为你这次查询出的数据说不定会在下次会使用到,所以要慎重将中间查询的数据存储起来,一便后面的使用

                                 合理设置分区表:目的,合理的管理我们的数据,方便查询我们指定的数据,避免全数据的全查询,提高数据的的读写性能,一般以day ,hour作为分区字段,

                               hql语句的优化:有些hql语句本身存在数据倾斜的可能性,因此要在一定程度上去优化我们的编写的hql语句,

                               参数层面的优化:

猜你喜欢

转载自blog.csdn.net/w5201314ws6123/article/details/80092280