python机器学习-chapter2_16

•分类器的不确定度

决策函数(decision_function):

二分类:返回类型为(n_samples, ),为每个样本返回一个浮点数,这个浮点数的正负号代表了预测的分类,值的大小代表了置信度。

多分类:返回类型为(n_samples, n_classes),每一列对应每个类别的“确定度分数”,分数越高的类别可能性越大

预测概率(predict_proba):

二分类:返回类型为(n_samples, 2),为每个样本返回两个数,第一个数是估计为第一类的概率,第二个数为估计为第二类的概率。

多分类:返回类型为(n_samples, n_classes),每一列对应每个类别的预测概率,预测概率值越大的类别可能性越大。

•监督学习总结

KNN:适用于小型数据集,是很好的基准模型,容易理解。

线性模型:适用于非常大的数据集,也是使用于高维数据,非常可靠的首选算法。

朴素贝叶斯:适用于非常大的数据集,也是使用于高维数据,只适用于分类问题,比线性模型速度快,但是比线性模型精度低。

决策树:不需要数据缩放,速度快,可视化效果好,容易解释。

随机森林:不适合高维稀疏的数据集,比单颗决策树的效果好,不需要数据缩放。

梯度提升决策树:精度比随机森林略高,预测速度快,训练速度比随机森林慢,需要调节更多的参数。

支持向量机:适用于特征相似的中等大小的数据集,在这种数据集上的效果很强大,需要数据缩放,需要调节更多参数。

神经网络:可以构建及其复杂的模型,尤其对大型数据集,对数据缩放敏感,需要调节参数。

面对一个新的数据集,通常先从简单的模型(线性模型、朴素贝叶斯、KNN)开始,观察得到的结果,再考虑用更加复杂的模型(随机森林、梯度提升机、SVM、神经网络)。

猜你喜欢

转载自www.cnblogs.com/bozi/p/12336635.html
今日推荐