目录
- 目录
- Lean Apache Spark 2
- Apache Spark 2.x Cookbook,第2版
- Learning Spark Streaming
- Apache Spark 2.x for Java Developers
- Scala and Spark for Big Data Analytics
- High Performance Spark完整版
- Machine Learning with Spark Second Edition
目录
Lean Apache Spark 2
本书于2017-03由Packt Publishing出版,作者Muhammad Asif Abbasi,全书356页。
通过本书你将学到以下知识:
- 概述大数据分析及其对组织和数据专业人员的重要性
- 深入了解Spark,了解它与现有处理平台的区别
- 了解各种文件格式的复杂性,以及如何使用Apache Spark处理它们。
- 实现如何使用YARN,MESOS或独立集群管理器部署Spark。
- 了解Spark SQL,SchemaRDD,缓存以及使用Hive和Parquet文件格式的概念
- 了解Spark MLLib的架构,同时讨论Spark附带的一些现成算法。
- 介绍一下SparkR的部署和使用情况。
- 了解图形计算和市场上可用的图形处理系统的重要性
- 通过使用ALS使用Spark构建推荐引擎来检查Spark的真实示例。
- 使用Telco数据集,使用随机森林预测客户流失。
Apache Spark 2.x Cookbook,第2版
本书适合数据工程师,数据科学家以及那些想使用Spark的读者。阅读本书之前最好有Scala的编程基础。通过本书你将学到以下知识:
- 在AWS上使用各种集群管理器安装和配置Apache Spark
- 为Apache Spark设置开发环境,包括Databricks Cloud笔记本
- 了解如何使用模式在Spark中操作数据
- 使用Spark Streaming和Structured Streaming掌握实时流分析
- 使用MLlib掌握监督学习和无监督学习
- 使用MLlib构建推荐引擎
- 使用GraphX和GraphFrames库进行图形处理
- 开发一组通用应用程序或项目类型,以及解决复杂大数据问题的解决方案
Learning Spark Streaming
通过本书你将学到以下知识
- 了解Spark流媒体是如何适应全局的
- 学习核心概念,如Spark RDDs、Spark流集群和DStream的基础知识
- 了解如何创建健壮的部署
- 深入流算法
- 学习如何调优,测量和监测火花流
Apache Spark 2.x for Java Developers
通过本书你将学到以下知识
- 使用不同的文件格式处理数据,例如XML、JSON、CSV和纯文本,使用Spark core库。
- 使用Spark流媒体库对来自各种数据源的数据进行分析,例如Kafka和Flume
- 学习使用各种SQL函数(包括Spark SQL库中的窗口函数)创建SQL模式和分析结构化数据
- 在实现机器学习技术以解决实际问题的同时,探索Spark Mlib api
- 了解Spark GraphX,这样您就可以了解使用Spark执行的各种基于图形的分析
Scala and Spark for Big Data Analytics
通过本书你将学到以下知识
- 了解Scala面向对象和函数式编程的概念
- 深入了解Scala集合api
- 使用RDD和DataFrame学习Spark的核心抽象
- 使用SparkSQL和GraphX分析结构化和非结构化数据
- 使用Spark结构化流进行可伸缩的容错流应用程序开发
- 学习机器学习的最佳实践,分类,回归,降维,和推荐系统,以建立预测模型与广泛使用的算法在Spark MLlib & ML
构建集群模型来集群大量数据 - 了解Spark应用程序的调优、调试和监视
在独立集群、Mesos和YARN上部署Spark应用程序
High Performance Spark完整版
本书适合软件工程师、数据工程师、开发者以及Spark系统管理员的使用。通过本数你可以学到:
- 了解如何使Spark作业运行速度更快;
- 使用Spark探索数据;
- 使用Spark处理更大的数据集;
- 减少管道运行时间以获得更快的洞察力。
Machine Learning with Spark Second Edition
- 接触最新版本的Spark ML
- 用Scala和Python创建您的第一个Spark程序
- 在您自己的计算机上以及在Amazon EC2上为Spark设置和配置开发环境
- 访问公共机器学习数据集并使用Spark加载、处理、清理和转换数据
- 使用Spark机器学习库通过使用众所周知的机器学习模型来实现程序
- 处理大规模的文本数据,包括特征提取和使用文本数据作为机器学习模型的输入
- 编写Spark函数来评估机器学习模型的性能
欢迎订阅博客