Spark项目学习-慕课网日志分析-days3-DataFrame&Dataset - 代码天地

Spark项目学习-慕课网日志分析-days3-DataFrame&Dataset

其他 2018-12-12 07:30:51 阅读次数: 0

1.DataFrame

1）不是Spark SQL提出的，而是早期在R，Pandas中产生的

2）DataFrame是一个以列（列名、列的类型、列值）的形式构成的分布式的数据集，按照列赋予不同的名称

3）是关系型数据库中的一张表或者是R/Python中的一个dataframe概念，但是具有更多优化

2.DataFrame对比RDD（DataFrame能够具有更多信息）

RDD：

java/scala ==> jvm

python ==> python runtime

DataFrame:

java/scala/python ==> Logic Plan 不同语言编程效果一样

3.DataFrame基本API常用操作

1）peopleDF.printSchema 打印Schema信息

2）peopleDF.show(100) 输出前100条记录

3）peopleDF.select("name").show() 只查询name字段的记录

peopleDF.select(peopleDF.col("name"),(peopleDF.col("age")+10).as("age2")).show() 查询某几列所有的数据，并且把数据都+10

4）peopleDF.filter(peopleDF.col("age">19).show() 对某一列的值进行过滤

studentDF.filter("substring(name,0,1)='M'").show 通过SubString函数将首字母为M的名字展示出来

5）peopleDF.groupBy("age").count().show() 根据某一列进行分组再进行聚合操作

6）peopleDF.sort(peopleDF("name").asc,peopleDF("id").desc).show 排序按名字升序，按id降序

7）peopleDF.join(peopleDF2,peopleDF.col("id")===peopleDF2.col("id")).show join表连接操作

4.DataFrame和RDD的互操作

1）使用反射机制，将RDD转换为DataFrame，使用反射

5.DataFrame API操作案例实战（学生信息统计案例）

6.Dataset概述及使用

1）Dataset是一个分布式的数据集，强类型，支持lambda公式，提供优化引擎，可以在Java和Scala里面使用

2）spark如何解析csv文件

val df = spark.read.option("header","true").option("inferScheme","true").csv(path)

df.show()

3）导入隐式转换：import spark.implicits._

4）Dataset概述：静态类型和运行时类型安全，nengg

猜你喜欢

转载自blog.csdn.net/canglan211/article/details/82953527

Spark项目学习-慕课网日志分析-days3-DataFrame&Dataset

Spark项目学习-慕课网日志分析-days4-慕课网日志分析

Spark项目学习-慕课网日志分析-days2-Spark SQL

Spark项目学习-慕课网日志分析-days5-Spark on Yarn

Spark项目学习-慕课网日志分析-days3-External Data Source 外部数据源

Spark项目学习-慕课网日志分析-days1-hadoop

【Spark实战】慕课网日志分析（二）：数据二次清洗之日志解析

以慕课网日志分析为例-进入大数据Spark SQL的世界

Spark SQL慕课网日志分析（1）--系列软件(单机)安装配置使用

以慕课网日志分析为例进入大数据 Spark SQL 的世界

【Spark实战】慕课网日志分析（一）：数据初步清洗

【Spark实战】慕课网日志分析（三）：清理后数据的存储、统计和入库

【Spark实战】慕课网日志分析：Hadoop环境配置和基本操作

JAVAEE慕课网项目需求分析

慕课网日志分析实战二：日志解析

以慕课网日志分析为例进入大数据 Spark SQL 的世界 ---课程笔记--未完待续

【Spark实战】慕课网日志分析（五）：将数据统计和入库的作业提交到YARN上运行

【Spark实战】慕课网日志分析（四）：将数据清洗的作业提交到YARN上运行

慕课网日志分析实战一：架构及概述

慕课网-ElasticSearch项目

Spark基础学习笔记23：DataFrame与Dataset

从慕课网学习 ElasticSearch的项目--搜房实战

JS学习（慕课网）

慕课网学习 - 目录

慕课网学习-JSON

慕课网学习 - JUnit

慕课网学习 - IDEA

慕课网学习 - Git

慕课网学习 - maven

synchronized学习--慕课网

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)