1)-Spark的前世今生
- Spark是类Hadoop MapReduce的通用并行框架
- 中间输出结果可以保存在内存中
- 适用于数据挖掘与机器学习等需要迭代的MapReduce的算法
- 启用了内存分布数据集,优化迭代工作负数
- Spark是在Scala语言中实现
- Spark和Scala能够紧密集成,像操作本地集合对象一样操作分布式数据集
- 对Hadoop的补充,可以在Hadoop文件系统中并行运行
- 使用在分布式数据上使用“变换”轻松操纵大规模数据
- 传统分布式计算平台扩展好但受限于API(MR)
- Spark突破了单机的限制
- 有快速Data API,编写大规模数据处理程序很轻松、
- Spark最初由Scala编写,支持简洁语法和交互式使用
- 添加Java API是为了支持独立的应用程序
- Python的添加是为了交互式shell
2)-课程介绍、特色与价值
大数据技术是现今和未来的核心竞争力,各高等院校和研究机构都在加紧对大数据师资、学生等的培养配套。但现有的情况是,大多数授课讲师和技术人员只精通一两个方面,比如若干算法、特定应用方向、特定层次领域。
3)-Scala编程详解:基础语法
变量定义:
类型转换:
4)-Scala编程详解:条件控制与循环
5)-Scala编程详解:函数入门
6)-Scala编程详解:函数入门之默认参数和带名参数
7)-Scala编程详解:函数入门之变长参数
8)-Scala编程详解:函数入门之过程、lazy值和异常
9)-Scala编程详解:数组操作之Array、ArrayBuffer以及遍历数组