本文的主要参考资料为书籍《大数据Spark企业级实战》
1. Spark
通用大规模数据快速处理引擎
2. Spark的技术栈
查询语言Spark SQL,机器学习工具MLlib,图计算工具GraphX,实时流处理工具Spark Streaming
3. Spark术语
4. RDD
RDD:弹性分布式数据集,是分布式只读的和已分区的集合对象。
通用大规模数据快速处理引擎
查询语言Spark SQL,机器学习工具MLlib,图计算工具GraphX,实时流处理工具Spark Streaming
RDD:弹性分布式数据集,是分布式只读的和已分区的集合对象。