spark1.6使用：读取本地外部数据，把RDD转化成DataFrame，保存为parquet格式,读取csv格式 - 代码天地

spark1.6使用：读取本地外部数据，把RDD转化成DataFrame，保存为parquet格式,读取csv格式

其他 2018-11-12 20:50:28 阅读次数: 0

一、先开启Hadoop和spark

略

二、启动spark-shell

spark-shell --master local[2] --jars /usr/local/src/spark-1.6.1-bin-hadoop2.6/libext/com.mysql.jdbc.Driver.jar

1.读取spark目录下面的logs日志作为测试：

val alllog=sc.textFile("file:///usr/local/src/spark-1.6.1-bin-hadoop2.6/logs/*out*")

alllog.count 看看一共有347记录

2.转为为DataFrame

现在读取进来的是RDD格式，用map函数把每条记录转成一行

import org.apache.spark.sql.Row

val alllogRDD=alllog.map(x =>Row(x))

import org.apache.spark.sql.types._

val schemaString="line"

val schema=StructType(schemaString.split(" ").map(fieldName =>StructField(fieldName,StringType,true)))

val alllogDataFrame = sqlContext.createDataFrame(alllogRDD, schema)

alllogDataFrame.printSchema  #打印schema
alllogDataFrame.show(false) #这里的false表示不省略，否则跟下午一样，会三点省略

到此为止，已经把RDD转化为DataFrame了。

三、把DataFrame转为为表用SQL查询

alllogDataFrame.registerTempTable("log")

sqlContext.sql("SELECT * FROM log").show()

到此就可以使用SQL了。

四、读取和存储外部数据源

1.读取json文件

val df = sqlContext.read.format("json").load("file:///mnt/hgfs/vm/china.json")

df.printSchema

df.select("*").write.format("parquet").mode("overwrite").save("file:///mnt/hgfs/vm/china.parquet") #保存为parquet格式

这里的mode可以有overwrite，append，ignore等模式，也可以不用。

这样就直接生产DataFrame数据，不用添加schema信息了。

对于parquet文件，还有更高级的使用方法，直接读取文件就行了

val df = sqlContext.sql("SELECT * FROM parquet.`examples/src/main/resources/users.parquet`")

对于json里面有嵌套数组，想要展开成多行，可以在SQL中使用explode函

猜你喜欢

转载自blog.csdn.net/lbship/article/details/83619797

spark1.6使用：读取本地外部数据，把RDD转化成DataFrame，保存为parquet格式,读取csv格式

Spark读取MySQL(Oracle)数据保存为libsvm格式

Spark读取Parquet格式的数据为Dataframe

python读取Json文件保存为csv格式

【解决】Python数据保存为csv再读取后部分数据的格式被更改

Matlab绘图保存为.fig格式以使用，及.fig文件的加载与数据读取

读取视频帧保存为ppm格式图片

nrrd格式用Python读取并保存为png图片

读取本地文件转化成MultipartFile

【人工智能概述】pandas拼接文件，np保留小数点后几位，np数据转化成pd.DataFrame数据，读取DataFrame的列名，把DataFrame保存成csv文件，删除某个文件

python | 将列表数据按行保存为txt格式并进行读取

读取图片并保存为numpy数据

Python 转化成 PB 格式数据

jtl转化成CSV格式的聚合报告

使用python读取csv并转化成list of list的方法

Scrapy用pipelines把字典保存为csv格式

GEE：提取多个点的时间序列数据，保存为csv格式（以NDVI为例）

Spark Dataframe转化成HashMap

Pyspark 读取本地csv文件，插入parquet格式的hive表中

Matlab将mat格式数据保存为txt格式

将数据导入Hive数据库中，使用python链接Hive读取数据库，转化成pandas的dataframe

Python对csv文件一键多值保存为json本地文件再读取加速效率(3)

(图像分类任务)读取文件夹所有图片并保存txt，并将图片保存为imdb格式。

mnist数据集读取并保存为Numpy数组

Java代码 json格式数据转化成xml jsonToXml

android wav 去头信息转化成pcm 格式数据

在excl中加入一列并批量导入mysql数据库（先转化成Dataframe格式）

spark-sql读取不到parquet格式的hive表

ajax--将获取到的文件内的数据转化成json格式并使用---输入提示

使用js获取当前时间，并转化成数据库接受的时间格式

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)