ML笔记 - 机器学习基本概念

版权声明:本文为博主原创文章,可以转载,但请添加原文链接。 https://blog.csdn.net/hwhsong/article/details/83002603

监督学习
以已知结果的数据集作为训练样本。
基本流程:输入数据 -> 特征工程 -> 模型训练 -> 模型部署 -> 模型应用。
监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示,也就是说学习的目的就在于找到最好的这样的模型。模型属于由输入空间到输出空间的映射集合,这个集合就是假设空间。
假设空间的确定意味着学习范围的确定。

输入空间(Input Space)
将输入的所有可能取值的集合称作输入空间。
输出空间(Output Space)
将输出的所有可能取值的集合称作输出空间。

  • 输入空间和输出空间可以是有限元素的集合,也可以是整个欧氏空间。
  • 输入空间和输出空间可以是连续值集合,也可以是离散值集合。
  • 输入空间和输出空间可以是同一个空间,也可以是不同空间。
  • 输出空间通常比输入空间小。

特征(Feature)
特征:即属性,每个输入实例的各个组成部分(属性)称作原始特征,基于原始特征还可以扩展出更多的衍生特征。
特征向量(Feature Vector)
由多个特征组成的集合,称作特征向量,x维。
特征空间(Feature Space)
将特征向量存在的空间称作特征空间。

  • 特征空间中的每一维都对应了一个特征(属性)。
  • 特征空间可以和输入空间相同,也可以不同。
  • 需要将实例从输入空间映射到特征空间。
  • 模型实际上是定义于特征空间之上的。

假设空间(Hypothesis Space)
由输入空间到输出空间的映射的集合,称作假设空间。
针对每一种可能的输入,都能找到一个映射,对应了输出空间中某个输出。
假设空间指的是问题所有假设组成的空间,可以把学习过程看作是在假设空间中搜索的过程,搜索目标是寻找与训练集“匹配”的假设。
版本空间:与训练集一致的“假设集合”。

特征工程
最大限度地从原始数据中提取特征以供算法和模型使用。

  • 数据预处理:标准化、缩放、缺失值、变换、编码等
  • 特征产生:结合业务数据,派生新的特征
  • 特征选择:通过各种统计量、模型评分等,筛选合适的特征
  • 降维:PCA、LDA等减少特征数量

CRISP-DM流程
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/hwhsong/article/details/83002603