概念学习自学笔记

概念学习：

对于以下几点的把握将有助于我们更好的理解概念学习

离散数学中的偏序关系，这是之后更好理解FIND_S算法和候选消除算法的关键
以搜索问题的角度去理解
概念学习在训练集含有噪声数据时性能较差

术语概念与符号表示

目标概念c：是一个布尔函数h ：X→{0，1}
目标概念值：c(x)
正例：c(x)=1
反例：c(x)=0
训练样例：<x,c(x)>
训练样例集合：D
所有可能假设(all possible hypotheses)：H
单个假设：h，是一个布尔函数h ：X→{0，1}

Find-S:寻找极大特殊假设

我们这里的假设是合取式

简单描述：从H中最特殊假设开始，在假设覆盖正例失败时将其一般化。

最特殊假设：<Ø,Ø,Ø,Ø,Ø,Ø>

算法描述（训练过程）

For each positive training instance x
For each attribute constraint ai ∈ h
If        the constraint ai ∈ h is satisfied by x
then    do nothing
else     replace ai ∈ h by the next more general constraint 
               that is satisfied by x
Output hypothesis

由最特殊假设出发，Find-S保证输出为H中与正例一致最特殊的假设

候补消除算法

候补消除算法输出的是与训练样例一致的所有假设的集合，而Find-S只是其中一个。
因为偏序关系的存在，候选消除算法在描述训练集合是不需要明确列举其所有成员。
但是和Find-S同样在含有噪声数据时性能较差。

变型空间

一般边界G

特殊边界S

初始化：G <- {<?,?,?,?,?,?>}
       S <- {<,,,,,>}
遍历训练集 d = < x, c (x) >
If d 是个正例
	对G：移出G中与d不一致(即假设得到的概念与样本真实概念取值不符)的所有假设
	对S：移出S中与d不一致的所有假设；如果一个假设h与d一致且G中有比h更一般的假设，那么将该假设加入S
If d 是个负例
	对S：移出S中与d不一致(即假设得到的概念与样本真实概念取值不符)的所有假设
	对G：移出G中与d不一致的所有假设；如果一个假设h与d一致且S中有比h更具体的假设，那么将该假设加入

一些说明与解释

如果训练数据中包含错误会怎样

会移除正确的目标概念
足够的训练数据，S和G边界收敛到一个空的变型空间

无偏学习器

为了保证目标概念在假设空间中，我们需要一个假设空间，它能表达所有的可教授概念。换言之，它能表达实例集X的所有可能的子集。而我们把集合X的所有子集的集合称为X的幂集（Power Set）

这是假设不止合取式，也不用担心无法表达目标概念。然而，概念学习算法将完全无法从训练样例中泛化！！！
S也就变成了正例的析取，G变成了反例的析取的否定式

无偏学习的无用性

有了上面介绍，也不难理解无偏学习的无用性。
但是同样说明了归纳推理的一个基本属性：学习器如果不对目标概念的形式做出预先的假定，它从根本上无法对未见实例进行分类
由于归纳学习的需要某种形式的预先假定，也称为偏置归纳，我们可以用偏置归纳来描述不同学习方法的特征。

概念学习自学笔记

概念学习自学笔记

概念学习：

术语概念与符号表示

Find-S:寻找极大特殊假设

候补消除算法

变型空间

一些说明与解释

如果训练数据中包含错误会怎样

无偏学习器

无偏学习的无用性

猜你喜欢