【数据挖掘】学习笔记


< 数据预处理 >

  • 聚集:多个样本或特征进行合并(减少样本规模、转换标度、更稳定)
  • 抽样:抽取一部分样本
  • 降维:在地位空间中表示样本(PCA、SVD)
  • 特征选择:选取重要特征(Lasso)
  • 特征创建:重新构建有用特征(Fouter转换)
  • 离散化
    • 将连续属性转换为离散属性的过程
    • 常用于分类
  • 二元化
    • 将连续或类别属性映射到一个或多个二值变量
    • 关联分析
    • 将连续属性转换为类别属性,将类别属性转换为一组二值变量
  • 变量变换
    • 将给定属性的值转换
    • 线性变换方法(简单函数)
  • 规范化
    • 最小-最大规范化(归一化)
    • z-score规范化(零均值规范化)
    • 小数定标规范化

< sklearn 机器学习平台 >

MLlib学习库:

  • 涵盖算法:分类算法、聚类算法、回归算法、降维算法
  • Scikit-learn 主要用法:
    • 符号标记:训练数据、训练集标签、测试数据、测试集标签、完整数据、标签数据
    • 数据划分:
      • train_test_split(x,y,random)
      • shuffle = True
    • 数据预处理
    • 监督学习算法(分类、
      • 逻辑回归
      • 支持向量机
      • 朴素贝叶斯

第3章 回归分析

3.1 回归分析的基本概念

  • 回归分析
  • 按涉及变量个数划分:一元回归、多元回归分析
  • 按照因变量的多少划分:简单回归分析、多重回归分析
  • 按照自变量和因变量之间的关系类型划分:线性回归分析、非线性回归分析。
  • 回归分析解决的问题:
    • 变量间的相关关系:确定性关系、非确定性关系
    • 预测或控制(一个或多个)变量的值
  • 回归分析的步骤
    • 确定变量:相关影响因素(自变量),主要的影响因素
    • 建立预测模型:自变量和因变量的历史统计资料计算
    • 进行相关分析:变量和预测对象的相关程度
    • 计算预测误差:是否可用于实际预测
    • 确定预测值:对预测值进行综合分析

3.2 一元线性回归

F检验、T检验

  • Y = a + bX + ε
  • 模型特点:
    • Y是X的线性函数加上误差项
    • 线性部分反映了由于X的变化引起的Y的变化
    • 误差选个ε是随机变量
    • 对于一个给定的X值,Y的期望值为E(Y)= a+bX
  • 回归方程:
  • 回归方程求解及模型检验:
    • 最小二乘法(方程求解),残差平方和
    • 拟合优度检验(模型检验)
    • 线性关系的显著性检验:显著性水平检验回归方程(回归参数的显著性检验),ESS,RSS
    • 一元线性回归实例
    • 评价标准r2

3.3 多元线性回归

  • Y = a + b1X1 + b2X2 + … + bnXn
  • 模型特点:
    • Y与X1X2X3…X4具有线性关系
    • 各个观测值Yi(i=1,2,3,…)之间相互独立
    • 随机误差ε~N(0,q2)
  • 最小二乘法求解多项式回归方程
  • 拟合优度检验
  • 回归参数的显著性检验
  • 多元线性回归实例

3.4 多项式回归

  • 多项式回归方程(非线性→线性)
  • 多项式回归方程实例
    • 多项式回归方程求解
    • 回归方程F检验
    • 多项式回归方程t检验

回归的评价标准

  • 均方误差(MSE)
  • 均方根误差(RMSE)
  • 平均绝对误差(MAE)
  • 选择MSE还是MAR?

猜你喜欢

转载自blog.csdn.net/Lenhart001/article/details/132691343