推荐BIG DATA Spark 的7本学习电子书籍（大牛专区）

其他 2018-08-14 00:19:03 阅读次数: 0

目录

目录
Lean Apache Spark 2
Apache Spark 2.x Cookbook，第2版
Learning Spark Streaming
Apache Spark 2.x for Java Developers
Scala and Spark for Big Data Analytics
High Performance Spark完整版
Machine Learning with Spark Second Edition

目录

Lean Apache Spark 2

本书于2017-03由Packt Publishing出版，作者Muhammad Asif Abbasi，全书356页。

通过本书你将学到以下知识：

概述大数据分析及其对组织和数据专业人员的重要性
深入了解Spark，了解它与现有处理平台的区别
了解各种文件格式的复杂性，以及如何使用Apache Spark处理它们。
实现如何使用YARN，MESOS或独立集群管理器部署Spark。
了解Spark SQL，SchemaRDD，缓存以及使用Hive和Parquet文件格式的概念
了解Spark MLLib的架构，同时讨论Spark附带的一些现成算法。
介绍一下SparkR的部署和使用情况。
了解图形计算和市场上可用的图形处理系统的重要性
通过使用ALS使用Spark构建推荐引擎来检查Spark的真实示例。
使用Telco数据集，使用随机森林预测客户流失。

Apache Spark 2.x Cookbook，第2版

本书适合数据工程师，数据科学家以及那些想使用Spark的读者。阅读本书之前最好有Scala的编程基础。通过本书你将学到以下知识：

在AWS上使用各种集群管理器安装和配置Apache Spark
为Apache Spark设置开发环境，包括Databricks Cloud笔记本
了解如何使用模式在Spark中操作数据
使用Spark Streaming和Structured Streaming掌握实时流分析
使用MLlib掌握监督学习和无监督学习
使用MLlib构建推荐引擎
使用GraphX和GraphFrames库进行图形处理
开发一组通用应用程序或项目类型，以及解决复杂大数据问题的解决方案

Learning Spark Streaming

通过本书你将学到以下知识

了解Spark流媒体是如何适应全局的
学习核心概念，如Spark RDDs、Spark流集群和DStream的基础知识
了解如何创建健壮的部署
深入流算法
学习如何调优，测量和监测火花流

Apache Spark 2.x for Java Developers

通过本书你将学到以下知识

使用不同的文件格式处理数据，例如XML、JSON、CSV和纯文本，使用Spark core库。
使用Spark流媒体库对来自各种数据源的数据进行分析，例如Kafka和Flume
学习使用各种SQL函数(包括Spark SQL库中的窗口函数)创建SQL模式和分析结构化数据
在实现机器学习技术以解决实际问题的同时，探索Spark Mlib api
了解Spark GraphX，这样您就可以了解使用Spark执行的各种基于图形的分析

Scala and Spark for Big Data Analytics

通过本书你将学到以下知识

了解Scala面向对象和函数式编程的概念
深入了解Scala集合api
使用RDD和DataFrame学习Spark的核心抽象
使用SparkSQL和GraphX分析结构化和非结构化数据
使用Spark结构化流进行可伸缩的容错流应用程序开发
学习机器学习的最佳实践，分类，回归，降维，和推荐系统，以建立预测模型与广泛使用的算法在Spark MLlib & ML
构建集群模型来集群大量数据
了解Spark应用程序的调优、调试和监视
在独立集群、Mesos和YARN上部署Spark应用程序

High Performance Spark完整版

本书适合软件工程师、数据工程师、开发者以及Spark系统管理员的使用。通过本数你可以学到：

了解如何使Spark作业运行速度更快；
使用Spark探索数据；
使用Spark处理更大的数据集；
减少管道运行时间以获得更快的洞察力。

Machine Learning with Spark Second Edition

接触最新版本的Spark ML
用Scala和Python创建您的第一个Spark程序
在您自己的计算机上以及在Amazon EC2上为Spark设置和配置开发环境
访问公共机器学习数据集并使用Spark加载、处理、清理和转换数据
使用Spark机器学习库通过使用众所周知的机器学习模型来实现程序
处理大规模的文本数据，包括特征提取和使用文本数据作为机器学习模型的输入
编写Spark函数来评估机器学习模型的性能

欢迎订阅博客

猜你喜欢

转载自www.cnblogs.com/coxiebig/p/9471794.html

推荐BIG DATA Spark 的7本学习电子书籍（大牛专区）

Spark - 大数据Big Data处理框架

Big Data （二）：Spark入门教程

电子书籍检索下载很好的网站推荐

[spark-src-core] 5.big data techniques in spark

Big Data （一）：Spark集群框架搭建【VM15+CentOS7+Hadoop+Scala+Spark+Zookeeper+HBase+Hive】

今日推荐豆瓣最受好评的20本Python书内附python电子书籍资料分享

Hadoop vs. Spark: The New Age of Big Data

Spark StreamingReal-time big-data processing

快学Big Data -- Spark Streaming 总结（二十五)

快学Big Data -- Spark SQL总结（二十四)

快学Big Data -- Spark 总结（二十三)

【pySpark教程】Big Data, Hardware trends, and Spark（二）

Spark、Flink 、Big Data、Java实用文章

Big Data World Forum 学习

Spark源码学习——Data Serialization

Big Data

Spark 电子书

Introduction to Big Data with Apache Spark——week2课题笔记

【Big Data 每日一题】Spark开发性能调优总结

IntelliJ IDEA Ultimate家族新成员Big Data Tools——集成Zeppelin和Spark

使用IDEA-Big Data Tools连接远程Spark服务器

Big Data技术综述

big data 自学路线

big data study &environment

Big Data常识

A Small Definition of Big Data

Big Data Trends

MS Big Data Solution

Big Data Landscape 2018

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)