数据分析学习总结笔记07:回归分析概述

1 什么是回归分析

1.1 回归分析概述

回归是用一条有代表性的直线或曲线(在高维空间中,则为超平面或一般曲面)来拟合输入输出数据的一种方法。
拟合的直线或函数刻画了变量之间的相互联系,基于这种联系我们可以对新获得的输入数据的输出结果进行预测。
回归分析:主要研究变量间的统计联系,通过建立统计模型研究变量间相互关系的密切程度、结构状态及进行预测

1.2 “回归”的由来

  • 回归的古典意义
    • 高尔顿(Galton)遗传学的回归概念。
    • 父母身高与子女身高的关系:无论高个子或低个子的子女都有向人的平均身高回归的趋势。
    • 高尔登把这种孩子的身高向平均值靠近的趋势称为一种回归效应,而他发展的研究两个数值变量的方法称为回归分析。
  • 回归的现代意义
    • 一个因变量对若干解释变量依存关系的研究,用恰当的数学模型近似地表达或估计变量之间的变化关系。
    • 实质:由已知的或固定的自变量的数值,去估计因变量的总体平均值。

1.3 回归分析归纳

1.3.1 回归分析的主要内容

回归分析的主要内容

1.3.2 回归分析的一般模型

回归分析过程

2 统计学中的回归模型

2.1 相关分析与回归分析

(1)相关分析

  • 用一个指标(相关系数)来表明现象间相互依存关系的密切程度。
  • 广义的相关分析包括相关关系的分析(狭义的相关分析)和回归分析

(2)回归分析

  • 指对具有相关关系的现象,根据其相关关系的具体形态,选择一个合适的数据模型(称为回归方程式),用来近似地表达变量间的平均变化关系的一种统计分析方法。

(3)两者的关系

  • 相关分析是回归分析的基础和前提。
  • 回归分析是相关分析的深入和继续。

2.2 回归模型的具体化

回归模型具体化

2.3 回归类型的判断

回归类型比较

2.4 回归分析中的统计问题

回归分析中的统计问题

3 机器学习角度看回归

3.1 数据分析问题的不同视角

  • 统计视角
    • 以数学模型为基础;
    • 基于人类的既有经验和理论推导;
    • 需要对问题场景和数据特征做出种种假设;
    • 大数据时代的挑战:模型与现实存在一定鸿沟;大数据提供了直接从数据本身进行探索的可能。
  • 机器学习视角
    • 以算法为中心 ,算法就是处理数据的步骤和规则;
    • 假设数据背后的理论结构是复杂和未知的,因而不太关注模型假设和统计检验;
    • 致力于从算法结构上模拟数据的产生过程;
    • 达到较好的预测效果;
    • 缺陷:难以对模型背后的理论机制进行解释。

3.2 机器学习分类

  • 有监督学习
    • 训练集数据有标签
    • 回归(输出变量连续)
    • 分类(输出变量离散)
  • 无监督学习
    • 训练集数据无标签(只有输入变量)
    • 聚类
    • 降维

3.3 机器学习的流程

(1)定义问题

  • 判断是否有人脸(目标检测,分类问题)
  • 判断性别(分类,输出变量离散)
  • 判断年龄(回归,输出变量连续)

(2)收集数据

  • 大量数据
  • 标注信息(是否为人脸/性别/年龄)

(3)特征设计
特征设计
(4)训练模型

  • 对象:训练集
  • 任务:通常是调整拟合模型的参数
  • 目标:拟合的总体偏差最小(通常需定义各种损失函数)
  • 技术:基于梳理统计(传统);基于数值计算和优化技术(现代)

(5)测试模型

  • 对象:测试集
  • 实现:交叉验证、自助法等

本文主要根据个人学习(应用回归分析MOOC),并搜集部分网络上的优质资源总结而成,如有不足之处敬请谅解,欢迎批评指正、交流学习!

发布了30 篇原创文章 · 获赞 0 · 访问量 545

猜你喜欢

转载自blog.csdn.net/weixin_41961559/article/details/105285569