解决之Spark Sql读写Hive表（加载源数据为.csv形式）数据不一致

其他 2021-03-20 22:36:15 阅读次数: 0

问题：

Hive查询：
在这里插入图片描述
Spark SQL 查询

在这里插入图片描述

同一张表，结果查询效果不一样
spark sql查询的表第一行即是源数据的表头，至于为什么有的是空值，是因为其所在字段都设置成int了，不相符合。

原因：

1、Hive表中不出现表头即脏数据的原因是我在创建表的时候跳过了文件的第一行

create table trains(
order_id int
,product_id int
,add_to_cart_order int
,reordered int
)
row format delimited fields terminated by ','
lines terminated by '\n'
--跳过文件行第一1行
tblproperties("skip.header.line.count"="1");

2、

Hive在创建表的时候可以通过增加：tblproperties(“skip.header.line.count”=“1”) 语句来忽略第一行。
但Hive中设置的忽略表头在Spark中不生效！这就是原因

解决

解决方法1：

$\quad \quad$ Hive表在创建表时，加载csv数据之前通过shell命令就清理一下脏数据。

在load数据之前，将原数据的第一行去掉，其余数据定向输出到一个新文件里，然后我们用新文件的数据加载表

sed '1d' tmp.csv > tmp_res.csv

解决方法2：

$\quad \quad$ 在原始表的基础上，再建立一个备份表，基于这个备份表，通过Spark Sql进行读写操作。

create table if not exists orders_2
row format delimited fields terminated by "," 
as 
select * from orders;

验证:

Hive查询：

扫描二维码关注公众号，回复： 12803727 查看本文章

select * from orders_2 limit 5;

在这里插入图片描述

Spark SQL 查询：

import spark.sql
sql("select * from test.orders_2 limit 10").show

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_45666566/article/details/112680738

解决之Spark Sql读写Hive表（加载源数据为.csv形式）数据不一致

当MySQL主从数据不一致，怎么解决？？？

mysql主从复制之数据不一致的暴力解决方法

解决数据库备份前后数据表不一致的情况

你知道怎么解决DB读写分离，导致数据不一致问题吗？

mysql 主从数据不一致,提示： Slave_SQL_Running: No 的解决方法

由数据迁移至MongoDB导致的数据不一致问题及解决方案

数据库主从数据不一致解决方案

如何解决数据库主从数据不一致的问题

redis与mysql数据库数据双写不一致如何解决？

一文解决MySQL主从导致数据不一致问题

91错误之——表名不一致

如何解决WebSocket Server返回数据不一致

解决Shape数据形状数与表记录数不一致的问题

Oracle中IMP导入数据时提示字符集不一致解决

JDBC连接MySQL数据库出现的时区不一致的解决办法

mysql主从不同步、数据不一致解决办法

MySQL 和 Redis缓存数据不一致解决方案

DataGuard备库和主库数据不一致解决办法

悲观锁解决高并发出现的数据不一致问题

缓存和数据库不一致出现的原因及其解决

2020-05-30：主从数据库不一致如何解决?

控制台解析preview和response数据不一致怎么解决

mybatis中resultType取出数据顺序不一致解决方法

当MySQL主从数据不一致，怎么解决？？？（2）

如何解决Redis 和MySQL的数据不一致

数据库时间和 java 时间不一致解决方案

redis和mysql数据不一致问题如何解决？

【Redis】什么是缓存与数据库双写不一致？怎么解决？

使用注解的方式解决json数据类型不一致

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)