Spark数据读取 - 代码天地

Spark数据读取

其他 2018-07-20 20:09:45 阅读次数: 0

　　用惯了python或者R语言的DataFrame格式，对spark的RDD编程模式一开始上手可能有点不习惯。本文简单梳理一下spark中常用的RDD操作。

1.初始化spark环境

2.读取本地文件

　　读取本地文件之后，一般都是转换成Row类型RDD，方便后续操作；同时RDD转成DataFrame前，一定要先转化成Row类型的RDD。

　　当然，也可以将读取文件和转化成Row类型RDD写在一行代码中：

3.RDD转成DataFrame

　　当然，我们依然可以用一行代码，将2、3步合并为一步，直接将读取的RDD转化成DataFrame，结果和上面是一样的；代码的含义为：选取了第1、2、3、4列生成DataFrame，列名为"id"，"orders"，"sumPrice"，"avgPrice"。

4.Spark Sql直接读取csv文件为DataFrame

　　如果是csv格式文件，可以直接利用spark sql读取成DataFrame，其中"com.databricks.spark.csv"，是利用到了由databricks公司开发并开源外部数据源接口，通过这个类库我们才可以在spark sql中解析并查询CSV中的数据。

5.数值类型转换

　　spark默认以String类型读取本地数据，我们可以根据需求，在读取数据过程中进行数据类型转换，例如转换成Double类型：

　　也可以用map函数将指定的列进行数据类型转换，其他列不变；例如只将第2、3个字段转换成Double：

猜你喜欢

转载自www.cnblogs.com/solong1989/p/9342589.html

spark读取hbase数据

Spark数据读取

spark读取es数据

spark 数据写入与读取

Spark 读取 HBase 数据

Spark——数据读取与保存

Spark读取MySQL数据

Spark读取CSV数据

spark读取hive数据-java

Spark（五）数据读取与保存

Spark 读取数据源码解析

Spark—数据读取和保存

Spark 读取文件系统的数据

spark从hbase读取写入数据

spark读取数据库数据

Spark从外部数据集中读取数据

【大数据】Spark数据读取与保存

Spark如何读取Hbase特定查询的数据

如何使用Spark/Scala读取Hbase的数据

Spark通过CQL读取写入Cassandra数据

在Spark上使用CLI读取Cassandra数据

Spark读取HBase数据源

spark sql 读取数据库并保存

Spark Streaming 读取Kafka数据写入ES

11.9 spark SQL读取MySQL数据

11.8 spark SQL读取hive数据

Spark批量读取Redis数据-Pipeline（Scala）

spark 读取 hdfs 数据分区规则

Spark SQL数据的读取和存储

Spark读取HDFS数据分区参考

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)