pyspark ml

基于RDD的API spark.mllib已进入维护模式。

Spark ML是Spark MLlib的一种新的API,它有下面的优点:

1.面向DataFrame,基于RDD进一步封装,拥有功能更多的API

2.具有Pipeline功能,可以实现复杂的机器学习模型

3.性能得到提升

ML包提供了七种分类(Classification)模型以供选择,从最简单的逻辑回归到一些更复杂的模型,下面作简要的描述:

LogisticRegression, 分类的基准模型。逻辑回归使用一个对数函数来计算属于特定类别的观察对象的概率;
DecisionTreeClassifier, 该分类器构建了一个决策树来预测一个观察对象的所属类别。指定maxDepth参数限制树的深度,minInstancePerNode确定需要进一步拆分的树节点的观察对象的最小数量,maxBins参数指定连续变量将被分割的Bin的最大数量,而impurity指定用于测量并计算来自分隔的信息的度量;
GBTClassifier, 用于分类的梯度提升决策树模型。该模型属于集合模型家族:集合模型结合多个弱预测模型而形成一个强健的模型;
RandomForestClassifier,该模型产生多个决策树,并使用模式输出的决策树来对观察对象进行分类;
NaiveBayes, 基于贝叶斯定理,该模型使用条件概率理论对观测进行分类;
MultilayerPerceptronClassfier, 多层感知器分类器。模仿人类大脑本质的分类器,深深植根于人造神经网络理论,该模型是一个黑盒模型,内部参数不易解释。该模型至少包含三个完全相连的人造神经元层:输入层(需要和数据集中特征的数量一样)、多个隐藏层(至少一个)以及一个输出层,其神经元数量等于标签中的类别数量。输入层和隐藏层中的所有神经元都有sigmoid激活函数,而输出神经元的激活函数则为softmax。
OneVsRest,将多分类问题简化为二分类问题。例如,在多标签的情况下,模型可以训练成多个二元逻辑回归模型。如多标签情况下,模型可以训练成多个二元逻辑回归模型。所有模型分别计分,具有最高概率的模型获胜。

猜你喜欢

转载自blog.csdn.net/qq_16792139/article/details/120061892
ML