大数据技术之Spark入门（一）概述 - 代码天地

大数据技术之Spark入门（一）概述

其他 2020-02-05 16:07:02 阅读次数: 0

1.1 什么是Spark

大数据技术之Spark入门（一）概述

1.2 Spark内置模块

大数据技术之Spark入门（一）概述

Spark Core：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet，简称RDD)的API定义。

Spark SQL：是Spark用来操作结构化数据的程序包。通过Spark SQL，我们可以使用 SQL或者Apache Hive版本的SQL方言(HQL)来查询数据。Spark SQL支持多种数据源，比如Hive表、Parquet以及JSON等。

Spark Streaming：是Spark提供的对实时数据进行流式计算的组件。提供了用来操作数据流的API，并且与Spark Core中的 RDD API高度对应。

Spark MLlib：提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的支持功能。

集群管理器：Spark 设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。为了实现这样的要求，同时获得最大灵活性，Spark支持在各种集群管理器(Cluster Manager)上运行，包括Hadoop YARN、Apache Mesos，以及Spark自带的一个简易调度器，叫作独立调度器。

Spark得到了众多大数据公司的支持，这些公司包括Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、百度、阿里、腾讯、京东、携程、优酷土豆。当前百度的Spark已应用于大搜索、直达号、百度大数据等业务；阿里利用GraphX构建了大规模的图计算和图挖掘系统，实现了很多生产系统的推荐算法；腾讯Spark集群达到8000台的规模，是当前已知的世界上最大的Spark集群。

1.3 Spark特点

大数据技术之Spark入门（一）概述

（本文为系列文章，关注作者阅读其它部分内容，总有一篇是你欠缺的，技术无止境，且学且珍惜！！！）

yiyidsj

发布了10 篇原创文章 · 获赞 0 · 访问量 98

私信关注

猜你喜欢

转载自blog.csdn.net/yiyidsj/article/details/104183444

大数据技术之Spark入门（一）概述

大数据入门-大数据技术概述(一)

大数据技术之Kafka（一）Kafka概述、Kafka快速入门、Kafka架构深入

大数据技术之Flume（一）Flume概述、Flume快速入门

大数据技术之Spark

大数据技术概述（一）

大数据技术之Hadoop（MapReduce概述）一

走近大数据之Hive入门（一、概述）

大数据之Spark Sql（一）：Spark SQL 概述、历史、优势、

大数据技术之Hadoop概述

大数据技术之Spark SQL

大数据技术之Spark基础解析

[大数据之Spark]——快速入门

大数据技术概述

大数据技术之Hadoop（入门）概述、运行环境搭建、运行模式

大数据架构与技术——（一）大数据概述

大数据(十二)--Spark概述

大数据Spark框架概述

大数据技术——Spark

大数据技术之_19_Spark学习_04_Spark Streaming 应用解析 + Spark Streaming 概述、运行、解析 + DStream 的输入、转换、输出 + 优化

大数据技术之_19_Spark学习_05_Spark GraphX 应用解析 + Spark GraphX 概述、解析 + 计算模式 + Pregel API + 图算法参考代码 + PageRank 实例

大数据技术，Spark核心技术之运行原理

大数据技术学习之Spark技术总结

大数据技术之Hadoop之HDFS(1)——HDFS概述

大数据技术之Hadoop之MapReduce（1）——MapReduce概述

大数据技术学习：Spark与Python入门-PySpark

Spark之【SparkSQL】入门概述

大数据入门必学技术之Hadoop

大数据技术之Hadoop入门

大数据技术之Hadoop（入门）

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)