pyspark ml

基于RDD的API spark.mllib已进入维护模式。

Spark ML是Spark MLlib的一种新的API，它有下面的优点：

1.面向DataFrame，基于RDD进一步封装，拥有功能更多的API

2.具有Pipeline功能，可以实现复杂的机器学习模型

3.性能得到提升

ML包提供了七种分类（Classification）模型以供选择，从最简单的逻辑回归到一些更复杂的模型，下面作简要的描述：

LogisticRegression, 分类的基准模型。逻辑回归使用一个对数函数来计算属于特定类别的观察对象的概率；
DecisionTreeClassifier, 该分类器构建了一个决策树来预测一个观察对象的所属类别。指定maxDepth参数限制树的深度，minInstancePerNode确定需要进一步拆分的树节点的观察对象的最小数量，maxBins参数指定连续变量将被分割的Bin的最大数量，而impurity指定用于测量并计算来自分隔的信息的度量；
GBTClassifier, 用于分类的梯度提升决策树模型。该模型属于集合模型家族：集合模型结合多个弱预测模型而形成一个强健的模型；
RandomForestClassifier，该模型产生多个决策树，并使用模式输出的决策树来对观察对象进行分类；
NaiveBayes, 基于贝叶斯定理，该模型使用条件概率理论对观测进行分类；
MultilayerPerceptronClassfier, 多层感知器分类器。模仿人类大脑本质的分类器，深深植根于人造神经网络理论，该模型是一个黑盒模型，内部参数不易解释。该模型至少包含三个完全相连的人造神经元层：输入层（需要和数据集中特征的数量一样）、多个隐藏层（至少一个）以及一个输出层，其神经元数量等于标签中的类别数量。输入层和隐藏层中的所有神经元都有sigmoid激活函数，而输出神经元的激活函数则为softmax。
OneVsRest，将多分类问题简化为二分类问题。例如，在多标签的情况下，模型可以训练成多个二元逻辑回归模型。如多标签情况下，模型可以训练成多个二元逻辑回归模型。所有模型分别计分，具有最高概率的模型获胜。

猜你喜欢