Hive_Hive 中的虚拟列以及使用场景示例 - 代码天地

Hive_Hive 中的虚拟列以及使用场景示例

其他 2018-07-16 13:27:10 阅读次数: 0

Hive 在 0.8 之后提供了几个虚拟列，虚拟列在平时作用并不大，

但是对于Hive, 前序ETL中可能由逻辑等产生的清洗异常，还是有很大帮助的，可以快速定位出错的文件！！！

在实际使用中，我遇到了这样的问题，在清洗日志中，由于上层的日志清洗导致数据的某些列过长，

此时需要快速定位出错的文件。这个时候就可以用到虚拟列了。

hive 的虚拟列主要有以下几个参数

INPUT__FILE__NAME

BLOCK__OFFSET__INSIDE__FILE

ROW__OFFSET__INSIDE__BLOCK （默认不开启，需设置参数）

注意 每个 __ 都是两个下划线~

这3个字段解释

INPUT__FILE__NAME :

进行划分的输入文件名

BLOCK__OFFSET__INSIDE__FILE :

文件中的块内偏移量

ROW__OFFSET__INSIDE__BLOCK : （默认不开启）

文件的行偏移量

第三个参数需要手动打开：

需要开启 hive.exec.rowoffset 选项。

先进行选项查询，查看参数是否开启：

连接beeline 客户端 beeline -u jdbc:hive2://BIGDATA6:10000 -n cloudera-scm

0: jdbc:hive2://10.180.0.26:10000> set hive.exec.rowoffset;
+----------------------------+--+
| set |
+----------------------------+--+
| hive.exec.rowoffset=false |
+----------------------------+--+
1 row selected (0.084 seconds)

可以看到参数默认没有开启，我们要开启此参数，如下所示：

0: jdbc:hive2://10.180.0.26:10000> set hive.exec.rowoffset=true;
No rows affected (0.006 seconds)

场景实战

已知clickcube_mid表中有一个字段 regioncode , regioncode 描述了一个ip对应的region信息，这个regioncode 目前使用的是原始值，为日志中直接获取。

某一天，由于regioncode 异常，导致spark 进程中断，查找得知是 regioncode 不合理导致，此时我们需要找到错误的regioncode, 可以进行如下的查询：

SELECT

INPUT__FILE__NAME,

BLOCK__OFFSET__INSIDE__FILE,

ROW__OFFSET__INSIDE__BLOCK,

substr(regioncode,0,20)

FROM clickcube_mid

WHERE length(regioncode) > 100;

猜你喜欢

转载自blog.csdn.net/u010003835/article/details/80897518

Hive_Hive 中的虚拟列以及使用场景示例

Hive_HIVE优化指南_场景四_控制任务中节点 / 文件数量

Hive Hive中的数据分桶以及使用场景 hive的分区和分桶

Hive中的数据分桶以及使用场景

Hive_Hive 中的数据压缩

Hive_HIVE优化指南_场景八_数据裁剪问题

Hive_HIVE优化指南_场景七_数据倾斜问题

Hive_HIVE优化指南_场景五_排序问题

Hive_HIVE优化指南_场景二_减少JOB的数量

Hive_Hive 中数据类型介绍

hive的4种存储格式以及使用场景

Hive_HIVE优化指南_场景一_去重场景问题

Hive_HIVE优化指南_场景三_合理进行并行控制

Hive_Hive中修改表常用的一些指令

Hive_Hive中实现差集_差集实现思路

JS中 ?. 、??、??=用法以及使用场景

Hive中的分桶概念的学习以及示例分析学习

hive和hbase应用场景的不同以及区别

hive嵌套if使用场景

HIVE中的表以及语法

hive中的分析函数以及时间戳的使用

Hive查询：行转列和列转行使用场景说明

java中枚举的使用场景及示例

Hive(20):虚拟列

hive中的内部表和外部表的区别和使用场景

Hive中的分桶表是什么？请解释其作用和使用场景。

Hive中的动态分区是什么？请解释其作用和使用场景。

hive的操作方式以及补充hive中的索引和视图

Hive_HIVE优化指南_场景六_通过让MAP 端, 多去承担任务，去减少 Reducer 的计算成本和数据传输成本

Spark SQL和Hive使用场景？

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)