22.机器学习

22.机器学习

day01(特征:抽取<值化>,预处理,降维)

主成分分析pca的原理没有学习看这个连接【需要了解】

交叉表【需要了解】

概念

  • 监督学习:有特征值和目标值
    • 聚类
  • 无监督学习:有特征值无目标值
    • 离散【区间内不可分】:分类
    • 连续【区间内可分】:回归

day02

数据集划分

训练数据:用于训练,构建模型
测试数据:在模型检验时使用,用于评估模型是否有效

在sklearn中,估计器(estimator)是一个重要的角色,分类器和回归器都属于estimator,是一类实现了算法的API

  • 1、用于分类的估计器:

    • sklearn.neighbors k-近邻算法
    • sklearn.naive_bayes 贝叶斯
    • sklearn.linear_model.LogisticRegression 逻辑回归
  • 2、用于回归的估计器:

    • sklearn.linear_model.LinearRegression 线性回归
    • sklearn.linear_model.Ridge 岭回归

sklearn.neighbors k-近邻算法

  • 需要标准化,要调参数k
  • k值取很小:容易受异常点影响
  • k值取很大:容易受最近数据太多导致比例变化
  • 优点:
    简单,易于理解,易于实现,无需估计参数,无需训练
  • 缺点:
    懒惰算法,对测试样本分类时的计算量大,内存开销大
    必须指定K值,K值选择不当则分类精度不能保证

朴素贝叶斯

  • 优点:不用调参数,
  • 缺点:特征独立,依赖训练集的精度和数量
  • 【遗留问题】:不知道小数在贝叶斯公式里怎么计算

评价标准

  • 准确率(有没有错)
  • 召回率(有没有查全,务必不可放过)
  • 精确率(查出来的有几个是真的)
  • 交叉验证和网格搜索GridSearchCV
    • 传入估计器,超参数,几折交叉数

决策树和随机森林

  • 信息论
    • 熵:用来描述属性的不纯度(不确定性)
    • 熵的理解
    • 熵就是信息量的数学期望;条件熵就是在新条件下熵(本质也是信息量的)的数学期望;两熵之差就是信息增益(决策树的分类依据之一);
  • 决策树就是按照特征信息增益的大小顺序进行决策;
    • 决策树在训练集表现的非常好,在测试集不行称为过拟合
  • 随机森林参数(集成学习方法,选择多个模型一起评估)
    • 决策树数量,树的深度,特征选择
    • 不需要降维
    • 决策树解决过拟合(区别离散和连续数据的过拟合解决方法):随机森林、删叶子节点

开始迭代算法:回归,神经网络

  • 回归:采用最小二乘法的测量(损失函数的建立,评估预测和真实的偏差)

    • 使用函数推导or梯度下降对损失函数的参数求解
    • 需要标准化<特征值和目标值要分别标准化,因为大家的方差不一样>(k-近邻也需要)
    • 性能评估(metric模块 ):均方误差
  • 回归选择方式的区别

    • 函数推导:样本大了消耗性能,适用性小(无法解决过拟合问题)
    • 梯度下降:需要选择学习率,适用性大;迭代收敛
  • 了解欠拟合(underfitting)与过拟合(overfitting)

    • 过拟合:学习了训练集里的局部特征,而不是一般特征,学的特征太多了;
      • 识别方式:通过交叉验证,结果是训练集表现好,测试集表现差
      • 解决方法:去噪
    • 欠拟合:学的特征太少了;
      - 识别方式:通过交叉验证,结果是训练集和测试集表现都不好
      - 解决方法:增加特征

正则化

  • 特征选择:过滤式(低方差特征),包裹式,嵌入式
  • 嵌入式包含正则化、神经网络和决策树(选择重要的特征)
  • 正则化(解决过拟合):普通的线性回归容易出现过拟合,是因为先把所有的数据都拟合进去。正则化就是减少复杂关系的特征的权重
  • 可以采用Ridge回归(正则化的方式):尝试让某些特征的权重变小,适用病态数据较多的情况
    • 超参数:正则化力度(越大权重就越小,模型越简单)、回归系数

###day03 逻辑回归、

逻辑回归(解决二分类问题)

  • 可以得到概率值

  • 输入和线性回归一样,也会有过拟合问题

  • 采用罗杰斯特(sigmoid)函数把值转化到0-1之间{可以映射概率};分类的时候可以把<0.5的视为0,反之为1在这里插入图片描述

  • 在这里插入图片描述

  • 在这里插入图片描述

  • 在这里插入图片描述

  • 在线性回归模块下的逻辑回归模块

  • 逻辑回归处理二分类问题,一般定概率小得来计算

  • 需要标准化(已经sigmode了 ),目标值不用标准化(是分类问题)

  • 正则化 L2,正则化力度C

  • 迭代收敛

生成模型(需要先验概率比如朴素贝叶斯)和判别模型

聚类

  • 聚类做在分类前,方便分类
  • 聚类评估标准:外部距离大,内部距离小;
  • 轮廓系数:(外部距离-内部距离)/max(外部距离,内部距离)[-1,1]
  • 迭代收敛;
  • 针对局部最优,可以多次的方式处理

猜你喜欢

转载自blog.csdn.net/hukou6335490/article/details/82955447
今日推荐