spark mllib cookbook

在火花中创建神经网络
在pyspark中创建一个数据框
在pyspark数据框中处理列
将pyspark转换为数据帧到数组
可视化散点图中的数组
设置权重和偏差以输入到神经网络
归一化神经网络的输入数据
验证数组以优化神经网络性能
设置S型激活功能
创建S型导数函数
在神经网络中计算成本函数
根据身高和体重预测性别
可视化预测分数

卷积神经网络的痛点介绍

痛点：导入mnist图像
痛点：可视化mnist图像
痛点：将MNsit图像导出为文件
增强mnist图像
利用备用源来训练图像
优先考虑cnns的高级库

递归神经网络的痛点
前馈网络介绍
rnns的后续工作
消失的梯度问题
爆炸梯度问题
lstms的顺序工作

第5章：使用Spark ml预测消防部门的电话
介绍
下载旧金山消防部门的电话数据集
确定逻辑回归模型的目标变量
为逻辑回归模型准备特征变量
应用逻辑回归模型
评估逻辑回归模型的准确性

第6章：在生成网络中使用LSTM
下载将用作输入文本的小说/书

准备和清理数据

标记句子

训练并保存lstm模型

使用模型生成相似的文本

第7章：使用tf-idf进行自然语言处理
下载治疗机器人会话文本数据集
分析治疗机器人会话数据集
可视化数据集中的字数统计
计算文本情感分析
从文本中删除停用词
训练tf-idf模型
比较模型性能与基准分数

第8章：使用xgboost进行房地产价值预测
下载国王乡村房屋销售数据集
进行探索性分析和可视化
绘制价格与其他特征之间的相关性
预测房屋价格

预测房屋价格

第9章：使用LSTM预测苹果股票集市成本
下载苹果的股票市场数据
探索和可视化苹果的股票市场数据
为模型性能准备库存数据
建立lstm模型
评估模型
第10章：使用深度卷积网络的人脸识别
下载mit-cbcl数据集并将其加载到数据集中
从目录绘制和可视化图像
预处理图像
模型的建立，训练和分析

第11章：使用word2vec创建和可视化单词向量
获取数据
导入必要的库
准备数据
建立和训练模型
进一步可视化
进一步分析

第12章：使用keras创建电影推荐引擎

下载movielens数据集
处理和合并movielens数据集
探索movielens数据集
为深度学习管道准备数据集
与keras一起应用深度学习模型
评估推荐引擎的准确性

第13章：在张量流上进行火花的图像分类
分别下载messi和ronaldo的30张图像
使用深度学习软件包配置pyspark安装
将图像加载到pyspark数据上
了解迁移学习
创建用于图像分类训练的管道
评估模型性能
微调模型参数

随着深度学习在现代行业中迅速获得主流采用，组织正在寻找将流行的大数据工具与高效的深度学习库结合在一起的方法。这将有助于深度学习模型以更高的效率和速度进行训练。

在Apache Spark深度学习食谱的帮助下，您将遍历特定的配方来为深度学习算法生成结果，而不会陷入理论上的泥潭。从设置用于深度学习的Apache Spark到实现神经网络的类型，这本书解决了常见和不常见的问题，以便在分布式环境中执行深度学习。除此之外，您还可以访问Spark中的深度学习代码，这些代码可以重复使用以回答类似的问题，也可以进行调整以回答稍有不同的问题。您还将学习如何使用Spark流化和集群数据。一旦掌握了基础知识，您将探索如何使用TensorFlow和Keras等流行的库在Spark中实现和部署深度学习模型，例如CNN，RNN和LSTM。归根结底，这是一本旨在指导如何在Spark上实际应用模型的食谱，尽管我们将参考每种模型的其他信息，但我们不会深入探讨本章所用模型的理论和数学。可以获得。

到本书结尾，您将具备在Apache Spark上训练和部署有效的深度学习模型的专业知识

本书适用于对机器学习和大数据概念有基本了解并且希望通过自上而下而不是自下而上的方法扩展其理解的任何人。本书以即插即用的方式提供了深度学习以及机器学习算法的访问权限。任何没有任何编程经验的人，尤其是使用Python的人，都可以按照说明逐步遵循食谱，从而轻松实现本书中的算法。本书中的大多数代码都是不言自明的。每个代码块都会执行一个特定功能，或者在挖掘，操纵，转换数据并将其拟合到深度学习模型中的动作上执行。

本书旨在通过有趣的项目（例如股价预测）为读者提供动手经验，以及对深度学习和机器学习概念的更扎实的理解。这可能是提供给在线资源的众多链接，例如出版的本书每一章中的所有文章，教程和指南。

第1章，为深度学习设置Spark，介绍了在虚拟Ubuntu桌面环境中开始在Spark上进行开发所需的一切。
第2章“使用Spark创建神经网络”介绍了不使用任何深度学习库（例如TensorFlow或Keras）而从头开始开发神经网络的过程。
第3章“卷积神经网络的痛点”介绍了与卷积神经网络进行图像识别相关的一些痛点，以及如何克服这些痛点。
第4章，递归神经网络的痛点，介绍了前馈神经网络和递归神经网络。我们描述了递归神经网络出现的一些痛点，以及如何使用LSTM解决它们。
第5章，使用Spark ML预测消防部门的呼叫，逐步发展了一个分类模型，用于使用Spark机器学习预测来自旧金山市的消防部门的呼叫。
第6章“在生成网络中使用LSTM”提供了动手方法，以小说或大型文本集作为输入数据来定义和训练LSTM模型，同时还使用训练后的模型生成自己的输出序列。
第7章，使用TF-IDF进行自然语言处理，逐步介绍了对聊天机器人对话数据进行分类以进行升级的步骤。
第8章，使用XGBoost进行房地产价值预测，着重于使用Kings County房屋销售数据集来训练简单的线性模型，并使用它来预测房价，然后再跳入更为复杂的模型以进行同样的操作并提高预测准确性。

第9章，使用LSTM预测苹果股票市场成本，着重于在Keras上使用LSTM创建深度学习模型，以预测AAPL股票的股票市场价格。
第10章，使用深度卷积网络进行人脸识别，利用MIT-CBCL数据集对10个不同主题的人脸图像进行训练和测试，以构建深度卷积神经网络模型。
第11章“使用Word2Vec创建和可视化单词向量”着重介绍了向量在机器学习中的重要性，还向用户介绍了如何利用Google的Word2Vec模型训练不同的模型并可视化小说中生成的单词向量。
第12章，使用Keras创建电影推荐引擎，着重于使用深度学习库Keras为用户构建电影推荐引擎。
第13章，使用TensorFlow on Spark进行图像分类，重点在于利用转移学习来识别世界上排名前两名的足球运动员：克里斯蒂亚诺·罗纳尔多和莱昂内尔·梅西。

充分利用这本书

1。
在本书中使用。互联网是当今世界上最大的大学。使用诸如
2。
YouTube，Udemy，edX，Lynda和Coursera提供了有关各种深度学习和机器学习概念的视频。不要只是读这本书而忘了它。切实执行每个步骤

3.一边看书。建议您在阅读每个食谱时都打开Jupyter笔记本电脑，以便在阅读本书时可以阅读每个食谱，同时检查所提到的每个步骤所获得的输出。

第一章：为深度学习开发设置Spark

在本章中，将介绍以下食谱：
下载Ubuntu桌面映像
在macOS上使用VMWare Fusion安装和配置Ubuntu
在Windows上使用Oracle VirtualBox安装和配置Ubuntu
安装和配置适用于Google Cloud Platform的Ubuntu桌面
在Ubuntu桌面上安装和配置Spark和必备组件
将Jupyter笔记本与Spark集成
启动和配置Spark集群
停止Spark集群

第二章：在Spark中创建神经网络

在本章中，将介绍以下食谱：
在PySpark中创建一个数据框
在PySpark数据框中处理列
将PySpark数据帧转换为数组
可视化散点图中的数组
设置权重和偏差以输入到神经网络
归一化神经网络的输入数据
验证阵列以优化神经网络性能
设置S型激活功能
创建S型导数函数
在神经网络中计算成本函数
根据身高和体重预测性别
可视化预测分数

介绍
本书的大部分内容将重点放在使用Python库（例如TensorFlow和Keras）构建深度学习算法。尽管这些库有助于构建深度神经网络，而无需深入了解深度学习的演算和线性代数，
本章将深入研究在PySpark中构建一个简单的神经网络，以便根据身高和体重进行性别预测。理解神经网络基础的最佳方法之一是从头开始构建模型，而无需任何流行的深度学习库。一旦建立了神经网络框架的基础，理解和利用一些更流行的深度神经网络库将变得更加简单。

半_调_子

发布了158 篇原创文章 · 获赞 28 · 访问量 33万+

私信关注

猜你喜欢