华为云--7天晋级机器学习

第一课
分类模型的评估:
二分类模型----->就是把东西分为 两类(一类是0和一类是1)
如果是一个多分类的问题---->可以站在某一类标签的角度看,其它类的都归为另外一类----->这样就转化为 二分类了

二分类 有7个评估指标:
在这里插入图片描述
在多指标下,可以站在不同指标去计算指标,也就是可以站在指标1,其它都为归为一类,也可以站在指标2,其它都归为一类……, 这样就有7*类别数 个指标了

评估指标的使用原则:
1、确定哪一个类别是非常重要,需要非常关注的指标
2、重要的这一类别指标 必须达到XX%的高标准
3、其它不重要的指标也在尽量高

分类模型的其它评估指标:


在这里插入图片描述
在这里插入图片描述
回归评估指标的使用原则
回归评估指标计算的都是真实值和预测值之间的误差:

1、使用误差的方式从总体上来判断模型的好坏,原则是误差越小越好,那么这个“小”的程度需要提前规定。比如
“平均绝对误差不能超过真实值平均值的10%”,这就是一个程度规定,程度规定要根据具体场景具体制定。
2、可以使用“接受度”的概念将依据误差的评估进行转换,比如设定一个接受度的值为80%,即当预测值与真实值
之间的比值处于0.8-1.2之间则视为为“可接受”,然后设定一个可接受的样本数,比如“测试集中必须有90%以上
的样本达到可接受状态”,这样就相当于用分类评估的思想去处理回归评估。
3、可以根据实际场景的不同设定各种规则,以满足模型验收需求为前提

在这里插入图片描述

第二课:客户分群
客户分群时,客户本身的信息是不带标签的信息,需要使用聚类算法找到客户之间内在的联系,将相同的客户分在一起。
在这里插入图片描述
聚类一般使用K–means 算法
输入: 需要把客户分成几类 K; 进行分类的数据集合
输出: K个集合
过程(假如分两类):
1、从集合中取出2个样本作为中心
2、计算其它样本 与中心的距离,把这个样本归到近的那个中心-------->最终得到两个集合
3、计算两个集合内的平均值作为中心
4、重新计算 2 -3两步,直到中心变化很小,或集合内的样本不再变

在这里插入图片描述

第三课:
优化K–meas算法
如果有一些离群很远的点,会造成分类不准
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

第四课质量分类
生产中需要对产品进行质量定级

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
第五课:
结果不理想时----->改变算法------->好一点,还是不理想,说明特征设计得不好

第六课 设备预测性维护
对轴承寿命和故障预测,积累一定的数据,对故障类型打标签,然后用分类或回归算法对故障进行建模。
在这里插入图片描述
在这里插入图片描述

这个用在股票上,就是前天的涨幅,昨天的涨幅,今天的涨幅,预测明天的涨幅

随机森林用于 分类还是回归—>取决于每颗决策树 是分类树还是回归树
当为回归树时---->树结点采用的分裂原则是—>最小平均方差。

回归树构建过程:
1、考虑数据集R上的所有特征j, 将数据集R分成R1和R2子集
2、分别计算R1和R2的平方误差和,选择最小平方误差对应的特征作为分割点,生成两个子节点
3、重复1和2,直到满足停止条
(这里还不是很明白)

第七课:特征的处理
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/liangbin414/article/details/88363427