Hive数据仓库ODS层数据存储设计 - 代码天地

Hive数据仓库ODS层数据存储设计

其他 2018-10-31 03:41:25 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/yvigmmwfn/article/details/78688715

软件环境

Hadoop 2.6.0-cdh5.9.0
Hive 1.1.0-cdh5.9.0
Zookeeper 3.4.5-cdh5.9.0

需求背景
数据来源是将8台服务器日志各自压缩成*.gz(8个gz文件)后，按天和小时分区传入到HDFS上，然后通过创建Hive ODS外部表加载到表对应分区，这样一天下来会生产192个gz文件，gz文件是不能进行切分所以查询一天则会产生192个Map数，导致后结数据处理性能与资源占用都比较大。需要进行优化>如下几点：
1. 存储后数据可切分
2. 数据存储压缩率高
3. 数据加载速度要快
技术方案
1. 通过创建TTexfFile存储格式ODS临时表外部表，将HDFS上的文件目录映射到外部表

create table temp.TempTableName(
 col1 string comment 'col1'
,col2 string comment 'col2' 
) partitioned by (p_dt string, p_hours string)
row format serde 'org.openx.data.jsonserde.JsonSerDe'
with serdeproperties ("ignore.malformed.json"="true")
stored as textfile
;

Alter table temp.TempTableName add partition (p_dt='20141101',p_hours='00') location '/ods/TempTableName/20141101/00';

在ODS层创建ORC存储格式相应的表，将临时外部表数据插入到ODS表

create table ods.TableName(
 col1 string comment 'col1'
,col2 string comment 'col2' 
) partitioned by (p_dt string, p_hours string)
stored as orc
;
insert overwrite table TableName partition(p_dt='20141101',p_hours='00')
select * from TempTableName where p_dt='20141101' and p_hours='00'

数据导入完闭，后续基本ODS进行操作即可

ss

方案优点
1. 数据可分割
2. 数据压缩率90%左右
方案缺点
1. 性能比以前慢(如是ODS只操作一次建议不采用此方案)
2. 维护成本提高
文章参考
https://cwiki.apache.org/confluence/display/Hive/CompressedStorage

pay

猜你喜欢

转载自blog.csdn.net/yvigmmwfn/article/details/78688715

Hive数据仓库ODS层数据存储设计

数据仓库与ODS的区别

【hive】数据仓库层次设计

Hive 数据仓库

Hive数据仓库

HIVE—数据仓库

Hive --数据仓库

大数据仓库之ods原始数据层和dw层设计

ODS、数据集市、数据仓库的异同点

数据仓库 ODS原始数据层的常规操作

数据仓库ODS、DW和DM概念区分

【转】数据仓库ODS、DW和DM概念区分

数据仓库DW、ODS、DM概念及其区别

对数据仓库ODS DW DM的理解

数据仓库模型分层ODS、DWD、DWM实战

数据仓库设计

hive （数据仓库工具）

Hive数据仓库的搭建

5.1 hive数据仓库

hive数据仓库建设

Hive （数据仓库）简介

构建数据仓库Hive

Hive离线数据仓库

Hive-数据仓库

hive--数据仓库

Hive(1)数据仓库

Hive(数据仓库工具)

学习数据仓库Hive

Hive --数据仓库工具

配置Hive数据仓库

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)