ML笔记 - 机器学习基本概念

监督学习
以已知结果的数据集作为训练样本。
基本流程：输入数据 -> 特征工程 -> 模型训练 -> 模型部署 -> 模型应用。
监督学习的目的在于学习一个由输入到输出的映射，这一映射由模型来表示，也就是说学习的目的就在于找到最好的这样的模型。模型属于由输入空间到输出空间的映射集合，这个集合就是假设空间。
假设空间的确定意味着学习范围的确定。

输入空间（Input Space）
将输入的所有可能取值的集合称作输入空间。
输出空间（Output Space）
将输出的所有可能取值的集合称作输出空间。

输入空间和输出空间可以是有限元素的集合，也可以是整个欧氏空间。
输入空间和输出空间可以是连续值集合，也可以是离散值集合。
输入空间和输出空间可以是同一个空间，也可以是不同空间。
输出空间通常比输入空间小。

特征（Feature）
特征：即属性，每个输入实例的各个组成部分（属性）称作原始特征，基于原始特征还可以扩展出更多的衍生特征。
特征向量（Feature Vector）
由多个特征组成的集合，称作特征向量，x维。
特征空间（Feature Space）
将特征向量存在的空间称作特征空间。

特征空间中的每一维都对应了一个特征（属性）。
特征空间可以和输入空间相同，也可以不同。
需要将实例从输入空间映射到特征空间。
模型实际上是定义于特征空间之上的。

假设空间（Hypothesis Space）
由输入空间到输出空间的映射的集合，称作假设空间。
针对每一种可能的输入，都能找到一个映射，对应了输出空间中某个输出。
假设空间指的是问题所有假设组成的空间，可以把学习过程看作是在假设空间中搜索的过程，搜索目标是寻找与训练集“匹配”的假设。
版本空间：与训练集一致的“假设集合”。

特征工程
最大限度地从原始数据中提取特征以供算法和模型使用。

数据预处理：标准化、缩放、缺失值、变换、编码等
特征产生：结合业务数据，派生新的特征
特征选择：通过各种统计量、模型评分等，筛选合适的特征
降维：PCA、LDA等减少特征数量

CRISP-DM流程
在这里插入图片描述

ML笔记 - 机器学习基本概念

猜你喜欢