spark简单API入门 - 代码天地

spark简单API入门

其他 2019-01-09 21:39:01 阅读次数: 0

在Spark 2.0之前，Spark的主要编程接口是弹性分布式数据集（RDD）。在Spark 2.0之后，RDD被数据集取代，数据集类似于RDD一样强类型，但在底层有更丰富的优化。

Spark的shell用来学习API

启动命令：

./bin/spark-shell

Spark的主要抽象是一个名为Dataset的分布式项目集合。可以从HDFS或通过转换其他数据集来创建数据集。

例如：让我们从README文件的文本中创建一个新的数据集

scala> val textFile = spark.read.textFile("README.md")
textFile: org.apache.spark.sql.Dataset[String] = [value: string]

可以通过调用某些操作直接从Dataset获取值，或者转换数据集以获取新值。

scala> textFile.count() // 这个Dataset的总数
res0: Long = 126 // May be different from yours as README.md will change over time, similar to other outputs

scala> textFile.first() // Dataset的first item
res1: String = # Apache Spark

将这个数据集转换为新数据集。调用filter返回一个新的数据集。

scala> val linesWithSpark = textFile.filter(line => line.contains("Spark"))
linesWithSpark: org.apache.spark.sql.Dataset[String] = [value: string]

可以将转换和行动联系在一起：

scala> textFile.filter(line => line.contains("Spark")).count() // How many lines contain "Spark"?
res3: Long = 15

猜你喜欢

转载自blog.csdn.net/weixin_42201566/article/details/85698946

spark简单API入门

Spark入门及Java Api

简单入门Fetch API

spark简单入门案例wordCount

Web API入门简单实例

Spark的Streaming和Spark的SQL简单入门学习

Spark SQL 快速入门系列(1) | Spark SQL 的简单介绍！

Spark Streaming 快速入门系列(1) | Spark Streaming 的简单介绍！

20天学习Spark（0）之最简单版Spark入门

Spark API

Spark Core入门2【RDD的实质与RDD编程API】

Spark快速入门API① Transformation转换算子

入门大数据---Spark_Structured API的基本使用

hibernate_01hibernate入门简单api

Lucene入门程序-Java API的简单使用

lambda和Stream API的简单入门例子

Spark SQL 快速入门系列(2) | SparkSession与DataFrame的简单介绍

Spark : Spark入门

【Spark】(一) Spark入门

Spark API--Spark 分区

初识Spark之 Spark API

spark入门

spark 入门

【spark入门】

Spark快速入门系列(3) | 简单一文了解Spark核心概念

Spark RDD :Spark API--Spark RDD

Spark Core 学习笔记（一）----- （Spark 与 Hadoop 对比，Spark 集群搭建与示例运行，RDD算子简单入门）

Lucene02-入门程序(Java API的简单使用)

简单入门java多线程<三>：线程控制API

WebSocket入门教程（二）-- WebSocket简单的API介绍

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)