pyspark：ML和MLlib - 代码天地

pyspark：ML和MLlib

其他 2020-03-06 10:27:16 阅读次数: 0

Spark有两个用于机器学习的库，分别是ML和MLlib，可以把实际的机器学习以简单、可伸缩并且无缝的方式与Spark整合起来。Spark中ML和MLlib的主要区别和联系如下：

（1）目前常用的机器学习功能2个库都能满足需求；

（2）spark官方推荐使用ML, 因为在spark3.0之后，将会废弃MLlib，全面的基于ML。因为ml操作的对象是DataFrame，操作起来会比RDD方便很多。所以，建议新接触spark的同学可以直接用ml 的方式；

（3）ML主要操作的是DataFrame, 而MLlib操作的是RDD，也就是说二者面向的数据集不一样。相比于MLlib在RDD提供的基础操作，ML在DataFrame上的抽象级别更高，数据和操作耦合度更低；

（4）DataFrame和RDD什么关系？DataFrame是Dataset的子集，也就是Dataset[Row], 而DataSet是对RDD的封装，对SQL之类的操作做了很多优化；

（5）相比于MLlib在RDD提供的基础操作，ML在DataFrame上的抽象级别更高，数据和操作耦合度更低；

（6）ML中的操作可以使用pipeline, 跟sklearn一样，可以把很多操作(算法/特征提取/特征转换)以管道的形式串起来，然后让数据在这个管道中流动。大家可以脑补一下Linux管道在做任务组合时有多么方便；

（7）ML中无论是什么模型，都提供了统一的算法操作接口，比如模型训练都是fit；不像MLlib中不同模型会有各种各样的train；

（8）MLlib在spark2.0之后进入维护状态, 这个状态通常只修复BUG不增加新功能；

（9）ML中的随机森林支持更多的功能：包括重要度、预测概率输出等，而MLlib不支持。

阳望

发布了45 篇原创文章 · 获赞 94 · 访问量 15万+

私信关注

猜你喜欢

转载自blog.csdn.net/qq_23860475/article/details/90721471

pyspark：ML和MLlib

PySpark学习笔记（4）——MLlib和ML介绍

利用PySpark的MLlib、ML Packages包预测客户流失

pyspark ml

Spark 中 ML 和 MLlib 的特点和区别

spark mllib和ml类里面的区别

PySpark的MLLib使用心得

使用spark ML创建机器学习流水线,ml包和mllib包的区别

pyspark mllib 编码、训练、评估流程示例

PySpark MLlib 机器学习算法库

Spark中ml和mllib库特征处理例子及其文档总结

【Spark MLlib】（二）Spark ML 特征工程 - 提取、转换和选择

【Spark MLlib】（一）Spark ML Pipelines

【Spark MLlib】（三）Spark ML 数据基础

使用pyspark ml 构建logisticRegression模型

pyspark-ml学习笔记：模型评估

MLlib

pyspark系列--pandas和pyspark对比

PySpark数据分析基础：pyspark.mllib.regression机器学习回归核心类详解(二)+代码详解

PySpark数据分析基础：pyspark.mllib.regression机器学习回归核心类详解(一)+代码详解

pyspark配置和使用

pyspark：RDD和DataFrame

实战案例：用 PySpark ML 构建流失预测模型

Pyspark机器学习:模型评估(ml.Evaluation包的使用)

Pyspark:ml包中Classification\Clustering\Regression包的使用

PUBG_Mobile：pyspark.ml，随机森林

从0开始学pyspark（九）：使用pyspark.ml.regression模块预测波士顿房价

从0开始学习pyspark（八）：使用pyspark.ml.classification模块对蘑菇进行分类

从0开始学pyspark（十）：使用pyspark.ml.clustering模块对商场顾客聚类

pyspark-ml学习笔记：pyspark下使用xgboost进行分布式训练

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)