Spark写MySQL字段数据类型被覆盖问题 - 代码天地

Spark写MySQL字段数据类型被覆盖问题

其他 2020-03-17 11:25:02 阅读次数: 0

问题背景

经过Spark处理之后的数据，需要写到MySQL在web页面进行展示。

遇到的问题

因为考虑到写入MySQL中的字段类型，需要提前在MySQL创建好对应的表。并通过JDBC将DataFrame中的内容写入到MySQL。

最初尝试写入MySQL的代码如下：

val df: Dataframe = ... 
df
	.coalesce(2)
	.write
	.mode("overwrite")
	.jdbc(url, "rcc.cr_second_credit_report",  props)

程序是跑成功了，但是到MySQL里面查看数据，发现之前创建的表结构已经被覆盖了，也不是原来的数据类型，都是DataFrame带过来的数据类型，可以说是一团乱。

之后查找原因，发现是DataFrameWriter在SaveMode.Overwrite 模式下写JDBC时，会有一个选项"truncate"，默认值是"false"。在默认值情况下，DataFrame写入MySQL会先drop掉已存在的表，然后再根据要写入的DataFrame信息推断出新的建表语句，并create table。明白了这个，也就不难理解，为什么我们明明已经创建好了表却还是被覆盖掉的原因了。

解决方法

解决方法很简单，就是把选项"truncate"设置为"true"。设置为"true"之后，在通过SaveMode.Overwrite 模式写JDBC时，就会使用"TRUNCATE TABLE"代替"DROP TABLE"，也就是只会删除已存在表的数据，并不会删除表结构。

代码如下：

val df: Dataframe = ... 
df
	.coalesce(2)
	.write
	.mode("overwrite")
	.option("truncate", "true") //设置为true
	.jdbc(url, "rcc.cr_second_credit_report",  props)

不过也要注意：在不同的DBMS中"TRUNCATE TABLE"的作用也是不相同的，所以使用这样选项也并不总是安全的。MySQLDialect, DB2Dialect, MsSqlServerDialect, DerbyDialect,和OracleDialect是支持这个选项的，而 PostgresDialect和默认的JDBCDirect是不支持的。对于那些未知和不支持的JDBCDirect，如果使用了选项"truncate"，将会被忽略，不起作用。

参考

A&F

发布了14 篇原创文章 · 获赞 3 · 访问量 4937

私信关注

猜你喜欢

转载自blog.csdn.net/lovetechlovelife/article/details/103833624

Spark写MySQL字段数据类型被覆盖问题

mysql字段数据类型设置

MySQL字段数据类型

mysql字段数据类型选择

MySQL的JSON字段数据类型

spark 调优：分区字段数据类型调整

MySQL之选择字段数据类型

MongoDb 修改字段数据类型

elasticsearch 字段数据类型

修改字段数据类型

mongodb修改字段数据类型

Elasticsearch--字段数据类型

ArcGIS Pro字段数据类型

Mysql 字段数据类型/长度及表类型详细说明

Oracle修改字段名、字段数据类型

day38 mysql字段数据类型、设置严格模式

elk之es字段数据类型

oracle中更改字段数据类型

Oracle查询所有的字段数据类型

如何修改字与字段数据类型？

mysql——修改表名、修改字段名、修改字段数据类型、增加字段、删除字段、修改字段排列位置、修改存储引擎、删除表

第3讲：MySQL数据库中常见的几种表字段数据类型

MySQL--表操作(innodb表字段数据类型、约束条件)、sql_mode操作

JDBC为MySql添加datetime类型的字段数据

MySQL字段的数据类型

SQL数据库字段数据类型详细说明

Oracle常用字段数据类型/to_char函数

阿里MaxCompute(原ODPS)如何修改列字段数据类型

mysql——修改表名、修改字段名、修改字段数据类型、增加字段、删除字段、修改字段排列位置、修改存储引擎、删除表（示例）

Plsql查询clob类型字段数据

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)