机器学习的分类与回归算法

前言:根据机器学习的数据集的目标值是离散or连续,处理的算法包含分类、回归两大类

sklearn的使用教程 https://www.jianshu.com/p/6ada34655862

目录

分类算法

k近邻算法

朴素贝叶斯

决策树、随机森林

分类回归

回归算法

线性回归


分类算法

k近邻算法

算法思想:一个样本与数据集中的k个样本最相似,如果k个样本中的大多数属于一个类别,则认识该样本属于这个类别;

最常见的两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中。n维空间中两个点x1(x11,x12,…,x1n)与 x2(x21,x22,…,x2n)间的欧氏距离

实现:

https://www.cnblogs.com/xiaotan-code/p/6680438.html

from sklearn.neighbors import KNeighborsClassifier
# 导包

knn = KNeighborsClassifer()
# 定义一个分类器对象

knn.fit([特征值],[目标值])
# 调用模型

朴素贝叶斯

算法思想 :https://blog.csdn.net/Growing_hacker/article/details/89790230

实现

from sklearn.naive_bayes import MultinomialNB
# 导包


clf = MultinomialNB()
# 实例化分类器


clf.fit([特征值],[目标值])
# 调用训练模型

https://blog.csdn.net/Growing_hacker/article/details/89790230 

决策树、随机森林

算法思想:根据信息熵以及信息增益的大小,找出分类的标准

https://blog.csdn.net/Growing_hacker/article/details/89816012

实现

from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
# 导包

分类回归

算法思想:解决二分类问题,线性回归的结果作为分类回归的输入,利用最大似然损失函数寻找权值,不同的阈值得出不同预测结果

实现

from sklearn.linear_model import LogisticRegression 
# 导包

classifier = LogisticRegression(random_state=37) 
# 实例分类器对象
  
classifier.fit(X, y) 
# 回归分类器进行训练  

回归算法

线性回归

算法思想:根据损失函数,不断调整权值使损失函数的值变小;特征方程or梯度下降的方式求解权值

https://www.cnblogs.com/geo-will/p/10468253.html

实现

from sklearn.linear_model import LinearRegression

猜你喜欢

转载自blog.csdn.net/Growing_hacker/article/details/104648562
今日推荐