使用Hive 分析数据 - 代码天地

使用Hive 分析数据

编程语言 2018-05-14 11:25:16 阅读次数: 2

当我们的数据量特别大的时候，我们可以用Hive统计数据。
Hive的好处是特别方便，编写程序的难度比较低。
输出文件作聚合的方法：
http://www.chinacloud.cn/show.aspx?id=3277&cid=12
Map 端部分聚合：
并不是所有的聚合操作都需要在 Reduce 端完成，很多聚合操作都可以先在 Map 端进行部分聚合，最后在 Reduce 端得出最终结果。
基于 Hash
参数包括：

hive.map.aggr = true 是否在 Map 端进行聚合，默认为 True
hive.groupby.mapaggr.checkinterval = 100000 在 Map 端进行聚合操作的条目数目

有数据倾斜的时候进行负载均衡
hive.groupby.skewindata = false
当选项设定为 true，生成的查询计划会有两个 MR Job。第一个 MR Job 中，Map 的输出结果集合会随机分布到 Reduce 中，每个 Reduce 做部分聚合操作，并输出结果，这样处理的结果是相同的 Group By Key 有可能被分发到不同的 Reduce 中，从而达到负载均衡的目的；第二个 MR Job 再根据预处理的数据结果按照 Group By Key 分布到 Reduce 中（这个过程可以保证相同的 Group By Key 被分布到同一个 Reduce 中），最后完成最终的聚合操作。
合并小文件

文件数目过多，会给 HDFS 带来压力，并且会影响处理效率，可以通过合并 Map 和 Reduce 的结果文件来消除这样的影响：

hive.merge.mapfiles = true 是否和并 Map 输出文件，默认为 True
hive.merge.mapredfiles = false 是否合并 Reduce 输出文件，默认为 False
hive.merge.size.per.task = 256*1000*1000 合并文件的大小

猜你喜欢

转载自poson.iteye.com/blog/737722

使用Hive 分析数据

使用 Cloudera Hive Jdbc 查询 Hive 数据

使用Sqoop实现HIve分析结果数据入库

使用hive读取hbase数据

使用hive查看hbase数据

Hive的基本使用（处理数据）

Hive 使用Load加载数据

大数据学习——hive使用

【大数据Hive】hive 加载数据常用方案使用详解

【大数据hive】hive视图与物化视图使用详解

【大数据Hive】Hive 内部表与外部表使用详解

【大数据Hive】Hive 窗口函数使用详解

【大数据Hive】hive 事务表使用详解

Hive中压缩使用详解与性能分析

Hive各类分析函数的使用实例

基于hadoop分析，了解hive的使用

Hive分析电商数据

Hive 数据分析函数

Hive简介、什么是Hive、为什么使用Hive、Hive的特点、Hive架构图、Hive基本组成、Hive与Hadoop的关系、Hive与传统数据库对比、Hive数据存储

Hive Hive中的数据分桶以及使用场景 hive的分区和分桶

Hive的安装和更为Hive的数据库为MySQL，使用JDBC连接Hive

hive使用load加载数据1.0

(转)使用Hive读取Hbase中的数据

使用Hive读取Hbase中的数据

使用sqoop从mysql导入数据到hive

hive使用动态分区插入数据详解

使用Hive读写ElasticSearch中的数据

sqoop使用，从hive向oracle导入数据

使用Ranger对Hive数据进行脱敏

hive如何使用json格式的数据

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)