【数据挖掘】学习笔记

编程语言 2023-09-09 17:06:26 阅读次数: 0

文章目录

第3章回归分析

< 数据预处理 >

聚集：多个样本或特征进行合并（减少样本规模、转换标度、更稳定）
抽样：抽取一部分样本
降维：在地位空间中表示样本（PCA、SVD）
特征选择：选取重要特征（Lasso）
特征创建：重新构建有用特征（Fouter转换）
离散化
- 将连续属性转换为离散属性的过程
- 常用于分类
二元化
- 将连续或类别属性映射到一个或多个二值变量
- 关联分析
- 将连续属性转换为类别属性，将类别属性转换为一组二值变量
变量变换
- 将给定属性的值转换
- 线性变换方法（简单函数）
规范化
- 最小-最大规范化（归一化）
- z-score规范化（零均值规范化）
- 小数定标规范化

< sklearn 机器学习平台 >

MLlib学习库：

涵盖算法：分类算法、聚类算法、回归算法、降维算法
Scikit-learn 主要用法：
- 符号标记：训练数据、训练集标签、测试数据、测试集标签、完整数据、标签数据
- 数据划分：
  - train_test_split(x,y,random)
  - shuffle = True
- 数据预处理
- 监督学习算法（分类、
  - 逻辑回归
  - 支持向量机
  - 朴素贝叶斯

第3章回归分析

3.1 回归分析的基本概念

回归分析
按涉及变量个数划分：一元回归、多元回归分析
按照因变量的多少划分：简单回归分析、多重回归分析
按照自变量和因变量之间的关系类型划分：线性回归分析、非线性回归分析。
回归分析解决的问题：
- 变量间的相关关系：确定性关系、非确定性关系
- 预测或控制（一个或多个）变量的值
回归分析的步骤
- 确定变量：相关影响因素（自变量），主要的影响因素
- 建立预测模型：自变量和因变量的历史统计资料计算
- 进行相关分析：变量和预测对象的相关程度
- 计算预测误差：是否可用于实际预测
- 确定预测值：对预测值进行综合分析

3.2 一元线性回归

F检验、T检验

Y = a + bX + ε
模型特点：
- Y是X的线性函数加上误差项
- 线性部分反映了由于X的变化引起的Y的变化
- 误差选个ε是随机变量
- 对于一个给定的X值，Y的期望值为E（Y）= a+bX
回归方程：
回归方程求解及模型检验：
- 最小二乘法（方程求解），残差平方和
- 拟合优度检验（模型检验）
- 线性关系的显著性检验：显著性水平检验回归方程（回归参数的显著性检验），ESS，RSS
- 一元线性回归实例
- 评价标准r²

3.3 多元线性回归

Y = a + b₁X₁ + b₂X₂ + … + b_nX_n
模型特点：
- Y与X₁X₂X₃…X₄具有线性关系
- 各个观测值Y_i(i=1,2,3,…)之间相互独立
- 随机误差ε~N(0,q²)
最小二乘法求解多项式回归方程
拟合优度检验
回归参数的显著性检验
多元线性回归实例

3.4 多项式回归

多项式回归方程（非线性→线性）
多项式回归方程实例
- 多项式回归方程求解
- 回归方程F检验
- 多项式回归方程t检验

回归的评价标准

均方误差（MSE）
均方根误差（RMSE）
平均绝对误差（MAE）
选择MSE还是MAR？

猜你喜欢

转载自blog.csdn.net/Lenhart001/article/details/132691343

数据挖掘学习笔记

【数据挖掘】学习笔记

数据挖掘入门学习笔记

数据挖掘学习笔记（1）

机器学习与数据挖掘学习笔记（5）关联挖掘

【数据挖掘学习笔记】1.数据挖掘概述

数据挖掘流程学习笔记—数据探索

学习笔记-数据预处理（数据挖掘）

《数据挖掘导论》学习笔记02 数据

【数据挖掘学习笔记】10.频繁模式挖掘基础

Python数据挖掘学习笔记（1）文本挖掘入门

数据挖掘学习笔记概述篇

机器学习&数据挖掘笔记概述（转载）

【学习笔记】大数据搜索与挖掘

数据挖掘笔记——贝叶斯学习

数据挖掘笔记——概念学习

学习笔记（二）数据挖掘概念与技术

学习笔记（一）数据挖掘概念与技术

数据挖掘项目学习笔记-2019.02.07更新

《数据挖掘导论》学习笔记（01）绪论

大数据挖掘与机器学习笔记

Python数据挖掘学习笔记——numpy

【MOOC学习笔记】数据挖掘——不推荐

【数据挖掘】学习笔记、重难点总结

数据挖掘学习笔记：分类、统计学习【转载】

数据挖掘、机器学习、人工智能学习笔记

数据挖掘导论学习笔记（2）----- 数据（2）

数据挖掘导论学习笔记（2）----- 数据（3）

数据挖掘导论学习笔记（2）----- 数据（1）

【数据挖掘学习笔记】2.认识数据

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)