Spark2.x 与 Spark1.x 关系 - 代码天地

Spark2.x 与 Spark1.x 关系

其他 2018-09-26 01:51:26 阅读次数: 0

Spark2.x 与 Spark1.x 关系

Spark2.x 引入了很多优秀特性，性能上有较大提升，API 更易用。在“编程统一”方面非常惊艳，实现了离线计算和流计算 API 的统一，实现了 Spark sql 和 Hive Sql 操作 API 的统一。Spark 2.x 基本上是基于 Spark 1.x 进行了更多的功能和模块的扩展，及性能的提升。

Spark2.x 新特性

1). Spark Core/SQL

在内存和CPU使用方面进一步优化Spark引擎性能(钨丝计划)。支持SQL 2003标准，支持子查询，对常用的SQL操作和DataFrame，性能有2-10倍的提升。

2). sparksession

Spark2.0 中引入了 SparkSession 的概念，它为用户提供了一个统一的切入点来使用 Spark 的各项功能，统一了旧的SQLContext与HiveContext。用户不但可以使用 DataFrame 和Dataset 的各种 API，学习 Spark2 的难度也会大大降低。

3). 统一 DataFrames 和 Datasets 的 API。

它们都是提供给用户使用，包括各类操作接口的 API，1.3 版本引入 DataFrame，1.6版本引入Dataset，在 spark 2.0 中，把 dataframes 当作是一种特殊的 datasets，dataframes = datasets[row]，把两者统一为datasets。

4). Structured Streaming

Spark Streaming基于Spark SQL(DataFrame / Dataset )构建了high-level API，使得Spark Streaming充分受益Spark SQL的易用性和性能提升。

5). 其它特性

mllib 里的计算用 DataFrame-based API 代替以前的 RDD 计算逻辑，提供更多的 R 语言算法，默认使用 Scala 2.11 编译与运行。

参考资料：

https://www.shiyanlou.com/courses/809/labs/2835/document

猜你喜欢

转载自blog.csdn.net/happyzwh/article/details/82735137

Spark2.x 与 Spark1.x 关系

Spark ALS recommendForAll源码解析实战之Spark1.x vs Spark2.x

sparkSQL 自定义UDAF函数（弱类型的方式）spark1.x spark2.x

Spark1.X视频教程

Spark2.x学习笔记：11、RDD依赖关系与stage划分

Spark2.0较于Spark1.x的更新之处

Spark2.x写Hbase1-2.x

Spark2.x安装配置

Spark2.x学习笔记（转载）

Spark2.X 傻瓜教程

Spark2.X管理与开发

Spark2.x RPC解析

SparkSql入门案例之三(Spark1.x)

Spark1.x和2.x如何读取和写入csv文件

spark开发环境——本地安装spark2.x及启动

【Spark】Spark2.x版的新特性

Spark2.x学习笔记：Spark SQL快速入门

Spark2.x学习笔记：Spark SQL的SQL

Spark2.x学习笔记：5、Spark On YARN模式

spark1.x和2.xIterable和iterator兼容问题

Spark2.x学习笔记：2、Scala简单例子

Spark2.X 分布式弹性数据集

Spark2.x基于Intellij IDEA开发

Spark2.x基于Zookeeper的高可用配置

Spark2.X 集群安装（原生版详细）

Spark2.X读取多种文件格式数据

Spark2.x 内存管理之---OFF_HEAP

hdp2.4集成spark2.X

spark2.x任务提交过程

Spark2.x 机器学习视频教程

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)