机器学习中的概念---输入空间、标记空间、样本空间、假设空间、版本空间

在这里插入图片描述

一:输入空间/特征空间/属性空间

  • 这三个概念都是指的X,都是指的输入量

二:标记空间/输出空间

  • 指的是Y,指的是输出量。(有时候,X-Y的所有映射也被当作Y,概念上有点混乱)

一:样本空间
样本空间的标准定义是:所有可能存在的、合理的、情况的集合。机器学习的主要工作就是寻找从属性空间(X)到标记空间(Y)的一个映射关系。说法很多,但可以认为Xi-Yi实际存在的一个组合就是一个样本,而所有样本的集合,就是样本空间。
上表中给出了四种实际存在的情况,也即是我们目前所能获得的训练集。而上述的的训练集只是样本空间一个很小的采样。
说法很多:
1、Xi-Yi实际存在的一个组合就是一个样本,而所有样本的集合,就是样本空间
2、X就是样本空间。

二:假设空间

起初,我们并不能得到样本空间。只有样本空间的一个很小的子集,也就是上面的四条样本。但可以确定的是(目前姑且这样认为)每一条示例有三条属性,即一个瓜的好或不好,由三个属性确定,而每个属性有三个值。就拿西瓜的颜色来说,表中有青绿、乌黑,姑且加一种浅白(仅为演示何为假设空间),可以确定的是一个好瓜应该是青绿或乌黑色;但也可能,西瓜的好或不好与颜色无关,即在好瓜的情况下西瓜的颜色可能是*(*代表任意颜色),那么西瓜的颜色这一属性就有四个可能的取值。

即假设空间可以这样定义:色泽:、根蒂:、敲声:是好瓜。色泽:、根蒂:、敲声:浊响是好瓜。色泽:、根蒂:、敲声:清脆是好瓜。色泽:、根蒂:、敲声:沉闷是好瓜。这是一个简单的排列组合问题。一共有44*4+1=65种情况。最后的1表示任何情况都不是好瓜,即没有好瓜的情况。

可以看出来,假设空间是在已知属性和属性可能取值的情况下,对所有可能满足目标(好瓜)的情况的一种毫无遗漏的假设集合。

三:版本空间

   从上面可以看到,假设空间,单纯的罗列的所有可能的情况,这更多的是一种数学上的罗列。显然假设空间中肯定有很多是不满足情况的,或是不合理的。…………比如根据上述表格中的训练数据(样本空间的子集)可以看出,“色泽:青绿、根蒂:硬挺、敲声:清脆不是好瓜“,所以假设空间中的“色泽:青绿、根蒂:硬挺、敲声:清脆是好瓜”显然是错误的假设,应当舍去。…………上面是删除假设空间明显错的假设。但还有那种不错误,但会有严重误导倾向的假设也需要删除。比如假设空间中有“色泽:青绿、根蒂:蜷缩、敲声:浊响是好瓜”,这和训练数据集正好吻合,显然是正确的,但是对于假设空间来说,此条假设也应该被删除。因为如果说“色泽:青绿、根蒂:蜷缩、敲声:浊响是好瓜”那么“色泽:乌黑、根蒂:蜷缩、敲声:浊响就不是好瓜了”这显然有种“过度精确”的错误。仅根据上述训练集中的四条数据来判断,“色泽:*、根蒂:蜷缩、敲声:浊响是好瓜”便比较合适了。这能很好的契合表中的四条数据。…………如果按照上述原则“色泽:浅白、根蒂:蜷缩、敲声:浊响”会被判断为好瓜,这正确与否显然是不知道的。所以,如果想做出正确的判断,就需要全面大量的训练,目的就是尽量的排出假设空间中不合理的假设。而剩下的假设就是在满足已有训练数据集的情况下,做出的最优选择了。…………现实问题中,我们常面临很大的假设空间,但学习过程是根据有限的样本训练集进行的,那么对于不同版本的训练集,应该会有不同版本的“删除后”的假设空间与之对应。便称之为版本空间。    

参考文献:https://blog.csdn.net/csucsgoat/article/details/79598803

猜你喜欢

转载自blog.csdn.net/xys430381_1/article/details/83178252