6.sklearn(机器学习)—简介分类和回归

版权声明:不要转载复制当原创就好了,指明下参考地址或者书目,大家一起学习进步。 https://blog.csdn.net/Monk_donot_know/article/details/86693743

1. 回归

在这里插入图片描述

2. 常用的回归

2.1 经典统计学模型

其实这里不好说什么统计学模型和机器学习模型,因为想PCA、logistic也是机器学习热门的模型。我就这么写吧,佛系分个类。
那个最小二乘我就先不推导了,打公式麻烦。有空再打吧。不过捏,这个基本推导烂熟于心要要要。

回归名称 描述
非线性回归 那就先想办法变成线性的,比如取对数的方法。不行的话就按照非线性最小二乘估计求解。
logistic 这个真的太常用,很好用。因变量是分类型的就可以使用。是个概率模型。
岭回归 是对最小二乘估计的改进,损失函数加了惩罚项。L2范数。
lasso 损失函数加了惩罚项的L1范数
主成分回归 对于共线性较强的线性模型的改进,有偏估计。

2.2 机器学习模型

sklearn内部有常用的几个回归算法:

模块名称 函数名 算法名
linear_model LinearRegression 线性回归
svm SVR 支持向量机
neighbors KNeighborsRegressor 最近邻回归
tree DecisionTreeRegression 回归决策树
ensemble RandomForestRegressor 随机森林回归
ensemble GrandientBoostingRegressor 梯度提升树回归

还有lasso-logistic、GBDT、xgboost…我慢慢写。
这些方法我会一一写完。

2.3 回归模型的评价指标

嗯,只要是回归问题就是下面这一套方法去评价,最常用的是均方误差。具体每个误差的公式,在前面的博客写的明明白白,评价体系大全!点击这里,传送门在此

方法 最优值 sklearn函数
平均绝对误差 0 metrics.mean_absolute_error
均方误差 0 metrics.mean_squared_error
中值绝对误差 0 metrics.median_absolute_error
可解释方差值 1 metrics.explained_variance_score
R^2 1 metrics.r2_score

嗯,均方误差用的最广,尤其是树模型的回归问题上,基本上都是追求误差最小。

3. 分类模型

3.1 常用分类模型

算法 描述
logistic 概率模型,设置好阈值之后,超过某个概率就判为1
决策树 还有衍生的集成学习问题 bagging、boosting、随机森林
人工神经网络
贝叶斯 又称信度网络,还有朴素贝叶斯。典型的垃圾邮件分类问题就用这个。而且在不确定知识表达推理领域用途很广
聚类 kmeans、KNN
支持向量机 核函数很关键,就是一种映射到高维空间然后分割寻求最大间隔的超平面

我会在后面一一实用,附上原理和案例代码。

3.2 分类模型的评价体系

只要是有标签的分类问题,这个是使用的混淆矩阵衍生出来的一系列指标进行评价的。在前面的博客里说的真的很详细!在此不累述了。
常用的就是查全率、查准率、召回率、F1-score
评价体系大全!点击这里,传送门在此

猜你喜欢

转载自blog.csdn.net/Monk_donot_know/article/details/86693743