同一个sql 在Hive和spark-sql 跑出结果不一样记录 - 代码天地

同一个sql 在Hive和spark-sql 跑出结果不一样记录

其他 2020-02-25 10:42:16 阅读次数: 0

表Schema

hive> desc gdm.dim_category;                                
name                    string         分类名称                                                   
org_code                string         分类code                             

hive> select name, org_code from gdm.dim_category limit 2;
OK
鞋     _8_
鞋/男  _8_21_

hive> desc gdm.dim_product_brand;
brand_id                bigint                  品牌ID                
ch_name                 string                  品牌中文名

hive> select brand_id, ch_name from gdm.dim_product_brand limit 2;
OK
1       nb
2       np

待运行的SQL

select
  t1.keyword,
  t3.name,
  t4.ch_name
from
(
  select "categoryIds:_8_" as keyword
  union all
  select "categoryIds:_8_21_" as keyword
  union all
  select "brandId:1" as keyword
) t1
left join gdm.dim_category t3
on split(t1.keyword, ":")[1] = t3.org_code and split(t1.keyword, ":")[0] = "categoryIds"
left join gdm.dim_product_brand t4
on split(t1.keyword, ":")[1] = t4.brand_id and split(t1.keyword, ":")[0] = "brandId"

在Hive中跑出的结果 (错误)

categoryIds:_8_	NULL	NULL
categoryIds:_8_21_	NULL	NULL
brandId:1	NULL	nb

在Spark-sql中跑出的结果 (正确)

categoryIds:_8_	鞋	NULL
categoryIds:_8_21_	鞋/男	NULL
brandId:1	NULL	nb

原因

因为 gdm.dim_product_brand 表中 brand_id字段是 bigint 类型
所以在Hive中会把 keyword 转成double类型用来进行 join 匹配操 –> split(t1.keyword, “:”)[1] = t4.brand_id)

因此 split(t1.keyword, “:”)[1] = t3.org_code 匹配不成功，所以结果为NULL

解决办法

split(t1.keyword, ":")[1] = t4.brand_id  -->  split(t1.keyword, ":")[1] = cast(t4.brand_id as string)

阿武z

发布了53 篇原创文章 · 获赞 50 · 访问量 2万+

私信关注

猜你喜欢

转载自blog.csdn.net/xw514124202/article/details/83305309

同一个sql 在Hive和spark-sql 跑出结果不一样记录

为啥同一个程序，单步执行和debug执行出现的结果不一样呢？

同一个sql在不同的oracle中执行时间不一样

mr和tez跑出来的数据不一样，mr丢数据？

spark-sql on Hive的配置记录

mybatis查询结果和接收的不一样

存储过程和sql窗口执行更新操作结果不一样的问题

sql orderby limit 1 得到的结果不一样

UPDATE SQL 不同环境执行结果不一样

Android NoteX Q5：同一个drawable的线横向和竖向为什么看起来不一样？

mysql binlog记录insert update delete的记录方式与flink sql不一样

mysql 实现同一个sql查询分页数据和总记录数

为什么负数除二和右移一位的结果不一样？

sql 同一个字段在查询结果中出现两次

Cobertura --Junit(eclipse 和cruisecontrol.bat结果不一样)

细分析du和df的统计结果为什么不一样

git grep和grep搜索结果不一样

C语言自加VC和VS中的自加结果不一样

详细分析du和df的统计结果为什么不一样

du和df的统计结果为什么会不一样？

Python中a += b和a = a + b的结果不一样吗？

/ 符号结果不一样

spark-sql 集成 hive

同一个SQL两种不同表达方式

同一个表，用sql查询今天和昨天的差值，然后排序

统计的sql 语句,同一个字段为不同值进行统计

在mybatis同一个方法中执行多个SQL语句实现方法

sql对同一个字段不同状态分别进行统计数量

GO ‘N’ Times，SQL执行同一个语句多次

sql优化典型案例-查询在同一个分组下的用户

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)