机器学习中的概念---输入空间、标记空间、样本空间、假设空间、版本空间

在这里插入图片描述

一：输入空间/特征空间/属性空间

这三个概念都是指的X，都是指的输入量

二：标记空间/输出空间

指的是Y，指的是输出量。（有时候，X-Y的所有映射也被当作Y，概念上有点混乱）

一：样本空间
样本空间的标准定义是：所有可能存在的、合理的、情况的集合。机器学习的主要工作就是寻找从属性空间（X）到标记空间（Y）的一个映射关系。说法很多，但可以认为Xi-Yi实际存在的一个组合就是一个样本，而所有样本的集合，就是样本空间。
上表中给出了四种实际存在的情况，也即是我们目前所能获得的训练集。而上述的的训练集只是样本空间一个很小的采样。
说法很多：
1、Xi-Yi实际存在的一个组合就是一个样本，而所有样本的集合，就是样本空间
2、X就是样本空间。

二：假设空间

起初，我们并不能得到样本空间。只有样本空间的一个很小的子集，也就是上面的四条样本。但可以确定的是（目前姑且这样认为）每一条示例有三条属性，即一个瓜的好或不好，由三个属性确定，而每个属性有三个值。就拿西瓜的颜色来说，表中有青绿、乌黑，姑且加一种浅白（仅为演示何为假设空间），可以确定的是一个好瓜应该是青绿或乌黑色；但也可能，西瓜的好或不好与颜色无关，即在好瓜的情况下西瓜的颜色可能是*（*代表任意颜色），那么西瓜的颜色这一属性就有四个可能的取值。

即假设空间可以这样定义：色泽：、根蒂：、敲声：是好瓜。色泽：、根蒂：、敲声：浊响是好瓜。色泽：、根蒂：、敲声：清脆是好瓜。色泽：、根蒂：、敲声：沉闷是好瓜。这是一个简单的排列组合问题。一共有44*4+1=65种情况。最后的1表示任何情况都不是好瓜，即没有好瓜的情况。

可以看出来，假设空间是在已知属性和属性可能取值的情况下，对所有可能满足目标（好瓜）的情况的一种毫无遗漏的假设集合。

三：版本空间

   从上面可以看到，假设空间，单纯的罗列的所有可能的情况，这更多的是一种数学上的罗列。显然假设空间中肯定有很多是不满足情况的，或是不合理的。…………比如根据上述表格中的训练数据（样本空间的子集）可以看出，“色泽：青绿、根蒂：硬挺、敲声：清脆不是好瓜“，所以假设空间中的“色泽：青绿、根蒂：硬挺、敲声：清脆是好瓜”显然是错误的假设，应当舍去。…………上面是删除假设空间明显错的假设。但还有那种不错误，但会有严重误导倾向的假设也需要删除。比如假设空间中有“色泽：青绿、根蒂：蜷缩、敲声：浊响是好瓜”，这和训练数据集正好吻合，显然是正确的，但是对于假设空间来说，此条假设也应该被删除。因为如果说“色泽：青绿、根蒂：蜷缩、敲声：浊响是好瓜”那么“色泽：乌黑、根蒂：蜷缩、敲声：浊响就不是好瓜了”这显然有种“过度精确”的错误。仅根据上述训练集中的四条数据来判断，“色泽：*、根蒂：蜷缩、敲声：浊响是好瓜”便比较合适了。这能很好的契合表中的四条数据。…………如果按照上述原则“色泽：浅白、根蒂：蜷缩、敲声：浊响”会被判断为好瓜，这正确与否显然是不知道的。所以，如果想做出正确的判断，就需要全面大量的训练，目的就是尽量的排出假设空间中不合理的假设。而剩下的假设就是在满足已有训练数据集的情况下，做出的最优选择了。…………现实问题中，我们常面临很大的假设空间，但学习过程是根据有限的样本训练集进行的，那么对于不同版本的训练集，应该会有不同版本的“删除后”的假设空间与之对应。便称之为版本空间。

参考文献：https://blog.csdn.net/csucsgoat/article/details/79598803

机器学习中的概念---输入空间、标记空间、样本空间、假设空间、版本空间

猜你喜欢