机器学习基本概念

数据集（data set）
示例（instance）
属性（attribute），又称特征（feature）
样本空间（sample space）
特征向量（feature vector）
维数（dimensionality）
标记（label）
学习（learning）
训练数据（training data）

回归（regression）

如果预测的是连续值，例如预测西瓜的成熟度，它必然是个大于0的小数值，比如成熟度为0.9，0.75，抑或是根据房屋面积，使用年限两个特征预测某个房屋的价值，类似这种预测称为回归。回归有些不好理解，可以理解为拟合吧，根据已有数据集，得到一条曲线f，然后再来一个Xm，带到 f 中，得到ym 。

分类（classification）

如果我们要预测的是离散值，等于0,1,2,3等这类离散值，例如好瓜，坏瓜，称此类学习任务为分类。如果分类的结果为两类，又称此分类为二分类，通常称其中一个为正类（positive class），另一个为反类（negative class）。它还有一个很奇怪的名字，叫逻辑回归，虽然是带着回归二字，实际是分类，注意此处。

聚类（clustering）

没有标记的记录集，并且我们还想学习这类数据集，比如想从里头挖出点有用的东西来。然后我们根据某些特征和算法将训练中的西瓜分成若干组，自动形成了几簇，这些簇可能对应一些潜在的概念，比如浅色瓜，深色瓜，本地瓜，这些概念我们都是事先不知道的。
监督学习（supervised learning）
带有标记信息的，回归和分类属于。
非监督学习（unsupervised learning）
无标记信息的，聚类属于。

泛化能力（generalization）:

学得的模型用于新样本的能力，是非常重要的能力。

引起泛化能力不足的一个原因是过拟合，过拟合导致在测试集上表现非常好，但是在新来的数据集上表现非常差。

这里写图片描述

归纳偏好(inductive bias)

归纳偏好（inductive bias），机器学习算法在学习过程中对某种类型假设的偏好。
任何一个有效的机器学习算法必有其归纳偏好，否则它将被假设空间中看似在训练集上等效的假设所迷惑，而无法生成确定的学习结果，这也是机器学习中非常重要的概念，举例说明。

机器学习入门基本概念

机器学习基本概念

猜你喜欢