scala中rdd与dataframe的各种创建方式 - 代码天地

scala中rdd与dataframe的各种创建方式

其他 2020-01-31 15:19:08 阅读次数: 0

创建RDD

1，从字符串创建rdd

sc.parallelize(xxx)

如：val testrdd=sc.parallelize(Seq((1,Array("1.0"),3),(2,Array("2.0"),6),(3,Array("3.0"),7),(1,Array("3.0"),7)))

2，从文件创建rdd

读文本文件

val citylevel = sc.textFile(HDFS_PATH)

.map(_.split(","))

.map(attributes=>Row(attributes(0).trim,attributes(1).trim))

创建DataFrame

1，从字符串创建dataframe

var test_df = Seq((1,Array("1.0"),3),(2,Array("2.0"),6),(3,Array("3.0"),7),(1,Array("3.0"),7)).toDF("imei","feature","id")

2，从rdd创建dataframe

rdd.toDF(xxx)

如：import spark.implicits._

val testrdd=sc.parallelize(Seq((1,Array("1.0"),3),(2,Array("2.0"),6),(3,Array("3.0"),7),(1,Array("3.0"),7)))

val testDF=testrdd.toDF("id","score","iemi")

3，从文件创建dataframe

(1)读parquet格式文件 val parquetFileDF = spark.read.parquet(HDFS_PATH)

(2)文本文件：先从文件创建rdd，再从rdd转成dataframe

import spark.implicits._

val citylevel = sc.textFile(HDFS_PATH)

.map(_.split(","))

.map(attributes=>Row(attributes(0).trim,attributes(1).trim))

val cityDF = citylevel.toDF("cityid","citylevel")

lipku

发布了32 篇原创文章 · 获赞 8 · 访问量 8万+

私信关注

猜你喜欢

转载自blog.csdn.net/lipku/article/details/103537083

scala中rdd与dataframe的各种创建方式

SparkSQL创建RDD：<6>读取JDBC中的数据创建DataFrame(MySql为例，两种方式)【Java，Scala纯代码】

SparkSQL创建RDD：<3>通过反射的方式将非json格式的RDD转换成DataFrame【Java，Scala纯代码】

SparkSQL创建RDD：<7>读取Hive中的数据加载成DataFrame【Java，Scala纯代码】

SparkSQL创建RDD：<2>通过创建json格式的RDD创建DataFrame【Java，Scala纯代码】

Spark 创建RDD、DataFrame各种情况的默认分区数

Spark中RDD转换成DataFrame的两种方式（分别用Java和Scala实现）

从rdd创建dataframe

从RDD创建DataFrame（Sparksql）

SparkSQL创建RDD：<1>读取json格式的文件创建DataFrame【Java，Scala纯代码】

SparkSQL创建RDD：<5>读取parquet文件创建DataFrame【Java，Scala纯代码】

PySpark中RDD与DataFrame

SparkSQL创建RDD：<4>动态创建Schema将非json格式的RDD转换成DataFrame【Java，Scala纯代码】

scala开发spark使用程序中的集合创建RDD

SparkSQL创建RDD：创建DataFrame的方式，配置Spark on Hive【文字说明+关键代码】

第60课：使用Java和Scala在IDE中实战RDD和DataFrame动态转换操作

第59课：使用Java和Scala在IDE中实战RDD和DataFrame转换操作

Spark中的RDD和DataFrame

Spark中 DataFrame,DataSet,RDD

DataFrame(4)：DataFrame的创建方式

创建RDD方式

RDD的几种创建方式

Spark——DataFrame与RDD互操作方式

SparkSql中创建DataFrame的三种创建方式

创建DataFrame的几种方式

DataFrame创建方式

DataFrame的几种创建方式

创建DataFrame的多种方式

利用JAVA、SCALA实现RDD和DataFrame转换

(Scala版)Spark Sql RDD/DataFrame/DataSet 相互转换

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)