概念学习自学笔记

概念学习自学笔记

概念学习:

对于以下几点的把握将有助于我们更好的理解概念学习

  • 离散数学中的偏序关系,这是之后更好理解FIND_S算法和候选消除算法的关键

  • 以搜索问题的角度去理解

  • 概念学习在训练集含有噪声数据时性能较差

术语概念与符号表示

  • 目标概念c:是一个布尔函数h :X→{0,1}

  • 目标概念值:c(x)

  • 正例:c(x)=1

  • 反例:c(x)=0

  • 训练样例:<x,c(x)>

  • 训练样例集合:D

  • 所有可能假设(all possible hypotheses):H

  • 单个假设:h,是一个布尔函数h :X→{0,1}

Find-S:寻找极大特殊假设

我们这里的假设是合取式

简单描述:从H中最特殊假设开始,在假设覆盖正例失败时将其一般化。

​ 最特殊假设:<Ø,Ø,Ø,Ø,Ø,Ø>

​ 算法描述(训练过程)

For each positive training instance x
For each attribute constraint ai ∈ h
If        the constraint ai ∈ h is satisfied by x
then    do nothing
else     replace ai ∈ h by the next more general constraint 
               that is satisfied by x
Output hypothesis 

由最特殊假设出发,Find-S保证输出为H中与正例一致最特殊的假设

候补消除算法

  • 候补消除算法输出的是与训练样例一致的所有假设的集合,而Find-S只是其中一个。
  • 因为偏序关系的存在,候选消除算法在描述训练集合是不需要明确列举其所有成员。
  • 但是和Find-S同样在含有噪声数据时性能较差。

变型空间

  • 一般边界G

  • 特殊边界S

    初始化:G <- {<?,?,?,?,?,?>}
           S <- {<,,,,,>}
    遍历训练集 d = < x, c (x) >
    If d 是个正例
    	对G:移出G中与d不一致(即假设得到的概念与样本真实概念取值不符)的所有假设
    	对S:移出S中与d不一致的所有假设;如果一个假设h与d一致且G中有比h更一般的假设,那么将该假设加入S
    If d 是个负例
    	对S:移出S中与d不一致(即假设得到的概念与样本真实概念取值不符)的所有假设
    	对G:移出G中与d不一致的所有假设;如果一个假设h与d一致且S中有比h更具体的假设,那么将该假设加入
    

一些说明与解释

如果训练数据中包含错误会怎样

  • 会移除正确的目标概念
  • 足够的训练数据,S和G边界收敛到一个空的变型空间

无偏学习器

为了保证目标概念在假设空间中,我们需要一个假设空间,它能表达所有的可教授概念。换言之,它能表达实例集X的所有可能的子集。而我们把集合X的所有子集的集合称为X的幂集(Power Set)

  • 这是假设不止合取式,也不用担心无法表达目标概念。然而,概念学习算法将完全无法从训练样例中泛化!!!
  • S也就变成了正例的析取,G变成了反例的析取的否定式

无偏学习的无用性

  • 有了上面介绍,也不难理解无偏学习的无用性。

  • 但是同样说明了归纳推理的一个基本属性:学习器如果不对目标概念的形式做出预先的假定,它从根本上无法对未见实例进行分类

  • 由于归纳学习的需要某种形式的预先假定,也称为偏置归纳,我们可以用偏置归纳来描述不同学习方法的特征。

猜你喜欢

转载自blog.csdn.net/qq_45175218/article/details/104032605