大数据Spark入门教程 - 代码天地

大数据Spark入门教程

其他 2018-07-31 11:45:02 阅读次数: 0

第一部分：快学Scala

第一章 Scala简介
 第二章 Scala安装
第三章 Scala基础
第1节声明值和变量
 第2节基本数据类型和操作
 第3节 Range
第4节打印语句
 第5节读写文件
第四章控制结构
第1节 if条件表达式
 第2节 while循环
 第3节 for循环
第五章数据结构
第1节数组
 第2节列表
 第3节元组
 第4节集
 第5节映射
 第6节迭代器
 第六章类
 第七章对象
 第八章继承
 第九章特质
 第十章模式匹配
第十一章函数式编程
第1节函数定义和高阶函数
第2节针对集合的操作
第2.1节遍历操作
 第2.2节 map操作和flatMap操作
 第2.3节 filter操作
 第2.4节 reduce操作
 第2.5节 fold操作
 第3节函数式编程实例WordCount

Spark有不同的版本，而且版本一直在升级，我们只要学习其中一个版本即可。截至2017年3月，Spark已经更新到2.0以上版本。
下面的第二部分是Spark速成（Spark2.1.0版本），第三部分是Spark速成（Spark1.6.2版本），读者可以选择其中一个版本学习，建议学习最新2.1.0版本。

第二部分：Spark速成（Spark2.1.0版本）

林子雨、赖永炫、陶继平编著《Spark编程基础》纸质教程（访问教程官网）已经撰写完毕，将于2018年春季由人民邮电出版社出版发行，主要用于高校大数据课程教学，敬请关注！
2018年6月1日附近厦大校园网维护，本站有几天时间无法访问，在无法访问期间，可以访问百度云盘上的大数据教学应急盘。
Spark官网截至2017年3月发布的最新版本是Spark2.1.0，建议读者学习Spark2.1.0版本。
第1章 Spark的设计与运行原理
1.1 Spark简介
 1.2 Spark运行架构
 1.3 RDD的设计与运行原理
 1.4 Spark的部署模式
第2章 Spark的安装与使用
2.1 Spark的安装与使用
 2.2 第一个Spark应用程序：WordCount
2.3 使用开发工具Intellij idea编写Spark应用程序
2.3.1 使用开发工具Intellij idea编写Spark应用程序(Scala+Maven)
2.3.2 使用开发工具Intellij idea编写Spark应用程序(Scala+SBT)
2.4 使用开发工具Eclipse编写Spark应用程序
2.4.1 使用开发工具Eclipse编写Spark应用程序(Scala+Maven)
2.4.2 使用开发工具Eclipse编写Spark应用程序(Scala+SBT)
2.5 Spark集群环境搭建
 2.6 在集群上运行Spark应用程序
第3章 Spark编程基础
3.1 RDD编程
 3.2 键值对RDD
3.3 共享变量
3.4 数据读写
3.4.1 文件数据读写
 3.4.2 读写HBase数据

第4章 Spark SQL
4.1 Spark SQL简介
 4.2 DataFrame与RDD的区别
 4.3 DataFrame的创建
 4.4 从RDD转换得到DataFrame
[第4.5节读取和保存数据]
4.5.1 读写Parquet(DataFrame)
4.5.2 通过JDBC连接数据库(DataFrame)
4.5.3 连接Hive读写数据

第5章 Spark Streaming
5.1 流计算简介
 5.2 Spark Streaming简介
第5.3节 DStream操作
5.3.1 DStream操作概述
第5.3.2节输入源
第5.3.2.1节基本输入源
5.3.2.1.1 文件流
 5.3.2.1.2 套接字流
 5.3.2.1.3 RDD队列流
第5.3.2.2节高级数据源
5.3.2.2.1 Apache Kafka
5.3.2.2.2 Apache Flume
5.3.3 转换操作
 5.3.4 输出操作

第6章 Spark MLlib
6.1 Spark MLlib简介
6.2 机器学习工作流
6.2.1 机器学习工作流(ML Pipelines)
6.2.2 构建一个机器学习工作流
6.3 特征抽取、转化和选择
6.3.1 特征抽取：TF-IDF
6.3.2 特征抽取：Word2Vec
6.3.3 特征抽取：CountVectorizer
6.3.4 特征变换：标签和索引的转化
 6.3.5 特征选取：卡方选择器
 6.4 分类与回归
 6.4.1 逻辑斯蒂回归分类器
 6.4.2 决策树分类器
6.5 聚类算法
6.4.1 KMeans聚类算法
 6.4.2 高斯混合模型(GMM)聚类算法
6.6 推荐算法
6.5.1 协同过滤算法
6.7 机器学习参数调优
6.7.1 模型选择和超参数调整

第7章 Spark GraphX（选修内容，可以不学）
7.1 图计算简介
 7.2 Spark GraphX 简介
 7.3 Spark GraphX 图操作
 7.4 Spark GraphX算法实例

第8章 Structured Streaming（选修内容，可以不学）
8.1 Structured Streaming简介
 8.2 Structured Streaming操作概述(包括读取网络流)
8.3 Structured Streaming读取文件流

第三部分：Spark速成（Spark1.6.2版本）

本部分内容是Spark1.6.2版本，建议学习上面第二部分的Spark2.1.0版本。
第一章 Spark简介
 第二章 Spark安装
 第三章 Spark运行架构
 第四章 RDD的设计与运行原理
 第五章 Spark的部署模式
 第六章第一个Spark应用程序：WordCount
第七章 RDD编程
 [第八章] 键值对RDD
[补充] 共享变量
第九章数据读写
[第9.1节] 文件数据读写
 第9.2节读写HBase数据
[第十章] Spark SQL
第10.1节 Spark SQL简介
第10.2节 DataFrame
第10.2.1节 DataFrame与RDD的区别
 第10.2.2节 DataFrame的创建
 第10.2.3节从RDD转换得到DataFrame
第10.2.4节读取和保存数据
第10.2.4.1节读写Parquet
第10.2.4.2节通过JDBC连接数据库
 第10.2.4.3节连接Hive读写数据

[第十一章]Spark Streaming
第11.1节流计算简介
 第11.2节 Spark Streaming简介
第11.3节 DStream操作
第11.3.0节 DStream操作概述
第11.3.1节输入源
第11.3.1.1节基本输入源
第11.3.1.1.1节文件流
 第11.3.1.1.2节套接字流
 第11.3.1.1.3节 RDD队列流
第11.3.1.2节高级数据源
第11.3.1.2.1节 Apache Kafka
第11.3.2节转换操作
 第11.3.3节输出操作

第十二章 Spark MLlib
第12.1节 Spark MLlib简介
第12.2节 spark.mllib库
第12.2.1节 MLlib基本数据类型(1)
第12.2.2节 MLlib基本数据类型(2)
第12.2.3节基本的统计工具（1）
第12.2.4节基本的统计工具（2）
第12.2.5节降维操作
第12.2.5.1节奇异值分解（SVD）
第12.2.5.2节主成分分析（PCA）
第12.2.6节分类与回归
 第12.2.6.1节逻辑斯蒂回归的分类器
 第12.2.6.2节决策树分类器
 第12.2.6.3节支持向量机SVM分类器
第12.2.7节推荐算法
第12.2.7.1节协同过滤算法
第12.2.8节聚类算法
第12.2.8.1节 KMeans聚类算法

第12.3节 spark.ml库
第12.3.1节工作流
第12.3.1.1节机器学习工作流
 第12.3.1.2节构建一个机器学习工作流
第12.3.2节特征抽取、转化和选择
第12.3.2.1节特征抽取:TF-IDF
第12.3.2.2节特征抽取：CountVectorizer
第12.3.2.3节特征抽取：Word2Vec
第12.3.2.4节标签和索引的转化
第12.3.3节分类与回归
第12.3.3.1节逻辑斯蒂回归的分类器
 第12.3.3.2节决策树分类器

（备注：前面我们都是在单机或伪分布式环境下操作，现在可以尝试在真正的分布式集群环境下运行Spark，由于Spark集群下编程会导致复杂性大大增加，所以，下面内容可以自由选择是否学习）
第十三章 Spark集群
第13.1 Spark集群环境搭建
 第13.2 在集群上运行Spark应用程序

（以上是Spark1.6.2教程所有内容，不再继续更新，请学习第二部分的Spark2.1.0版本教程）

转自： http://dblab.xmu.edu.cn/blog/spark/

猜你喜欢

转载自blog.csdn.net/zyc88888/article/details/81001776

大数据spark开发入门教程

大数据Spark入门教程

Spark入门教程

大数据Hadoop快速入门教程

python 大数据入门教程

Spark 简易入门教程

大数据入门教程系列之Hive篇汇总

Storm入门教程玩转大数据计算之Storm

大数据零基础学习hadoop入门教程

大数据零基础如何入门教程

Spark DataFrame、Spark SQL、Spark Streaming入门教程

Spark入门教程（Scala版）

Big Data （二）：Spark入门教程

大数据学习路线教程图，如何快速入门Spark

大数据框架Spark基础入门学习教程汇集

如何快速入门Spark——大数据教程免费领取

postgresql数据的入门教程

大数据Hadoop视频教程_Hadoop新手入门教程

入门大数据---Spark简介

大数据入门教程系列之Hadoop环境搭建、软件准备

大数据入门教程系列之Hadoop环境搭建--新建Hadoop用户

大数据入门教程系列之Hadoop环境搭建--Hadoop高可用集群搭建配置

大数据入门教程系列之Hive内置函数及自定义函数

大数据入门教程系列之Hive的Java API 操作

大数据入门教程系列之Hbase安装(伪分布式)

大数据学习初级入门教程（一） —— Hadoop 2.x 的安装、启动和测试

大数据初学者的福利——Hadoop快速入门教程

2020年整理的大数据基础入门教程总结和学习路线

Spark2 x 快速入门教程 1

cache数据库入门教程

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)