概念学习自学笔记
概念学习:
对于以下几点的把握将有助于我们更好的理解概念学习
-
离散数学中的偏序关系,这是之后更好理解FIND_S算法和候选消除算法的关键
-
以搜索问题的角度去理解
-
概念学习在训练集含有噪声数据时性能较差
术语概念与符号表示
-
目标概念c:是一个布尔函数h :X→{0,1}
-
目标概念值:c(x)
-
正例:c(x)=1
-
反例:c(x)=0
-
训练样例:<x,c(x)>
-
训练样例集合:D
-
所有可能假设(all possible hypotheses):H
-
单个假设:h,是一个布尔函数h :X→{0,1}
Find-S:寻找极大特殊假设
我们这里的假设是合取式
简单描述:从H中最特殊假设开始,在假设覆盖正例失败时将其一般化。
最特殊假设:<Ø,Ø,Ø,Ø,Ø,Ø>
算法描述(训练过程)
For each positive training instance x
For each attribute constraint ai ∈ h
If the constraint ai ∈ h is satisfied by x
then do nothing
else replace ai ∈ h by the next more general constraint
that is satisfied by x
Output hypothesis
由最特殊假设出发,Find-S保证输出为H中与正例一致最特殊的假设
候补消除算法
- 候补消除算法输出的是与训练样例一致的所有假设的集合,而Find-S只是其中一个。
- 因为偏序关系的存在,候选消除算法在描述训练集合是不需要明确列举其所有成员。
- 但是和Find-S同样在含有噪声数据时性能较差。
变型空间
-
一般边界G
-
特殊边界S
初始化:G <- {<?,?,?,?,?,?>} S <- {<,,,,,>} 遍历训练集 d = < x, c (x) > If d 是个正例 对G:移出G中与d不一致(即假设得到的概念与样本真实概念取值不符)的所有假设 对S:移出S中与d不一致的所有假设;如果一个假设h与d一致且G中有比h更一般的假设,那么将该假设加入S If d 是个负例 对S:移出S中与d不一致(即假设得到的概念与样本真实概念取值不符)的所有假设 对G:移出G中与d不一致的所有假设;如果一个假设h与d一致且S中有比h更具体的假设,那么将该假设加入
一些说明与解释
如果训练数据中包含错误会怎样
- 会移除正确的目标概念
- 足够的训练数据,S和G边界收敛到一个空的变型空间
无偏学习器
为了保证目标概念在假设空间中,我们需要一个假设空间,它能表达所有的可教授概念。换言之,它能表达实例集X的所有可能的子集。而我们把集合X的所有子集的集合称为X的幂集(Power Set)
- 这是假设不止合取式,也不用担心无法表达目标概念。然而,概念学习算法将完全无法从训练样例中泛化!!!
- S也就变成了正例的析取,G变成了反例的析取的否定式
无偏学习的无用性
-
有了上面介绍,也不难理解无偏学习的无用性。
-
但是同样说明了归纳推理的一个基本属性:学习器如果不对目标概念的形式做出预先的假定,它从根本上无法对未见实例进行分类
-
由于归纳学习的需要某种形式的预先假定,也称为偏置归纳,我们可以用偏置归纳来描述不同学习方法的特征。