机器学习入门基本概念

机器学习基本概念

数据集(data set)
示例(instance)
属性(attribute),又称特征(feature)
样本空间(sample space)
特征向量(feature vector)
维数(dimensionality)
标记(label)
学习(learning)
训练数据(training data)

回归(regression)

如果预测的是连续值,例如预测西瓜的成熟度 ,它必然是个大于0的小数值,比如成熟度为0.9,0.75,抑或是根据房屋面积,使用年限两个特征预测某个房屋的价值,类似这种预测称为回归。回归有些不好理解,可以理解为拟合吧,根据已有数据集,得到一条曲线f,然后再来一个Xm,带到 f 中,得到ym 。

分类(classification)

如果我们要预测的是离散值,等于0,1,2,3等这类离散值,例如 好瓜,坏瓜,称此类学习任务为分类。如果分类的结果为两类,又称此分类为二分类,通常称其中一个为正类(positive class),另一个为反类(negative class)。它还有一个很奇怪的名字,叫逻辑回归,虽然是带着回归二字,实际是分类,注意此处。

聚类(clustering)

没有标记的记录集,并且我们还想学习这类数据集,比如想从里头挖出点有用的东西来。然后我们根据某些特征和算法将训练中的西瓜分成若干组,自动形成了几簇,这些簇可能对应一些潜在的概念,比如浅色瓜,深色瓜,本地瓜,这些概念我们都是事先不知道的。
监督学习(supervised learning)
带有标记信息的,回归和分类属于。
非监督学习(unsupervised learning)
无标记信息的,聚类属于。

泛化能力(generalization):

学得的模型用于新样本的能力,是非常重要的能力。

引起泛化能力不足的一个原因是过拟合,过拟合导致在测试集上表现非常好,但是在新来的数据集上表现非常差。

这里写图片描述

归纳偏好(inductive bias)

归纳偏好(inductive bias),机器学习算法在学习过程中对某种类型假设的偏好。
任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上等效的假设所迷惑,而无法生成确定的学习结果,这也是机器学习中非常重要的概念,举例说明。

猜你喜欢

转载自blog.csdn.net/xuejiaguniang/article/details/78913181
今日推荐