Spark教程(2)-Spark概述及相关组件 - 代码天地

Spark教程(2)-Spark概述及相关组件

其他 2018-11-21 09:57:52 阅读次数: 0

1.概述

Spark起源于加州大学伯克利分校RAD实验室,起初旨在解决MapReduce在迭代计算和交互计算中的效率低下问题.目前Spark已经发展成集离线计算,交互式计算,流计算,图计算,机器学习等模块于一体的通用大数据解决方案.

2.Spark组件

Spark Core

Spark Core 实现了 Spark 的基本功能，包含任务调度、内存管理、错误恢复、与存储系统
交互等模块。
Spark Core 中还包含了对弹性分布式数据集（resilient distributed dataset，简
称 RDD）定义。

SparkSQL

SparkSQL是对计算任务的SQL化封装,类似于Hive.
支持多种数据源,如Hive,Json等.

Spark Streaming

Spark Streaming是Spark的流式计算组件.

MLlib
机器学习组件,提供了常用的机器学习算法包.

GraphX
图计算组件,提供的图数据库和常用的图算法包.

调度器

支持三种调度器,独立调度器(Spark自带)YARN,Mesos.

3.第一个Spark小程序

启动HDFS,启动Spark

进入shell
bin/spark-shell
bin/pyspark(Python版)

scala> var lines = sc.textFile("/test/hello.txt")
lines: org.apache.spark.rdd.RDD[String] = /test/hello.txt MapPartitionsRDD[5] at textFile at <console>:24

scala> lines.count()
res3: Long = 3

scala> lines.first()
res4: String = hello Spark!

猜你喜欢

转载自www.cnblogs.com/guan-li/p/9993154.html

Spark教程(2)-Spark概述及相关组件

Spark概述及集群部署

【Spark】Spark七： Spark概述

Spark（一）Spark概述

Spark学习---Spark概述

Spark 概述

Spark概述

2-spark学习笔记-spark发展概述

Spark相关

spark 相关

Spark 03 Spark SQL 概述

计算利器Spark——Spark概述

RabbitMQ 概述及相关概念

Spark教程

spark 调优概述

Spark Streaming概述

Spark概述详解

Spark 集群模式概述

Spark Streaming概述（1）

Spark 01 概述

【SPARK】流计算概述

Spark性能优化----（概述）

Spark SQL概述

Spark执行原理概述

Spark集群模式概述

Spark-概述-安装

spark sql的概述与来历

1 Spark概述

Spark概述（一）

Spark概述（二）

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)