机器学习(周志华) 参考答案 第一章 绪论

版权声明:本文为博主原创文章,技术有限,如果发现错误或问题请告知博主,转载请注明出处,谢谢。 https://blog.csdn.net/icefire_tyh/article/details/52065224

机器学习(周志华) 参考答案 第一章 绪论

机器学习(周志华西瓜书) 参考答案 总目录


1.表1.1中若只包含编号为1,4的两个样例,试给出相应的版本空间。

假设空间指的是问题所有假设组成的空间,我们可以把学习过程看作是在假设空间中搜索的过程,搜索目标是寻找与训练集“匹配”的假设。

假设数据集有n种属性,第i个属性可能的取值有 t i 种,加上该属性的泛化取值(*),所以可能的假设有 i ( t i + 1 ) 。再用空集表示没有正例,假设空间中一共 i ( t i + 1 ) + 1 种假设。
现实问题中常面临很大的假设空间,我们可以寻找一个与训练集一致的假设集合,称之为版本空间。版本空间从假设空间剔除了与正例不一致和与反例一致的假设,它可以看成是对正例的最大泛化。
版本空间的可以通过搜索假设空间来得到,这样需要遍历完整的假设空间。如果数据集中有正例,则可以先对一个正例进行最大泛化,得到 2 n 个假设,然后再对这些假设进行剔除操作,可以适当精简计算量。
西瓜数据集(精简)

编号 色泽 根蒂 敲声 好瓜
1 青绿 蜷缩 浊响
2 乌黑 稍蜷 沉闷

数据集有3个属性,每个属性2种取值,一共 3 3 3 + 1 = 28 种假设,分别为

  • 1.色泽=青绿 根蒂=蜷缩 敲声=浊响
  • 2.色泽=青绿 根蒂=蜷缩 敲声=沉闷
  • 3.色泽=青绿 根蒂=稍蜷 敲声=浊响
  • 4.色泽=青绿 根蒂=稍蜷 敲声=沉闷
  • 5.色泽=乌黑 根蒂=蜷缩 敲声=浊响
  • 6.色泽=乌黑 根蒂=蜷缩 敲声=沉闷
  • 7.色泽=乌黑 根蒂=稍蜷 敲声=浊响
  • 8.色泽=乌黑 根蒂=稍蜷 敲声=沉闷
  • 9.色泽=青绿 根蒂=蜷缩 敲声=*
  • 10.色泽=青绿 根蒂=稍蜷 敲声=*
  • 11.色泽=乌黑 根蒂=蜷缩 敲声=*
  • 12.色泽=乌黑 根蒂=稍蜷 敲声=*
  • 13.色泽=青绿 根蒂=* 敲声=浊响
  • 14.色泽=青绿 根蒂=* 敲声=沉闷
  • 15.色泽=乌黑 根蒂=* 敲声=浊响
  • 16.色泽=乌黑 根蒂=* 敲声=沉闷
  • 17.色泽=* 根蒂=蜷缩 敲声=浊响
  • 18.色泽=* 根蒂=蜷缩 敲声=沉闷
  • 19.色泽=* 根蒂=稍蜷 敲声=浊响
  • 20.色泽=* 根蒂=稍蜷 敲声=沉闷
  • 21.色泽=青绿 根蒂=* 敲声=*
  • 22.色泽=乌黑 根蒂=* 敲声=*
  • 23.色泽=* 根蒂=蜷缩 敲声=*
  • 24.色泽=* 根蒂=稍蜷 敲声=*
  • 25.色泽=* 根蒂=* 敲声=浊响
  • 26.色泽=* 根蒂=* 敲声=沉闷
  • 27.色泽=* 根蒂=* 敲声=*
  • 28.空集Ø
    编号1的数据可以删除 2 8 10 12 14 16 18 20 22 24 26 28 (不包含数据1)
    编号1的数据可以删除 27 (包含了数据2)
    所以版本空间为:
  • 1.色泽=青绿 根蒂=蜷缩 敲声=浊响
  • 9.色泽=青绿 根蒂=蜷缩 敲声=*
  • 13.色泽=青绿 根蒂=* 敲声=浊响
  • 17.色泽=* 根蒂=蜷缩 敲声=浊响
  • 21.色泽=青绿 根蒂=* 敲声=*
  • 23.色泽=* 根蒂=蜷缩 敲声=*
  • 25.色泽=* 根蒂=* 敲声=浊响
    一般情况下版本空间是正例的泛化,但由于数据集中只有1个正例,所以在版本空间中依然包含了这个样本的假设(假设1)。

2.与使用单个合取式来进行假设表示相比,使用“析合范式”将使得假设空间具有更强的表示能力。若使用最多包含k个合取式的析合范式来表达1.1的西瓜分类问题的假设空间,试估算有多少种可能的假设。


3.若数据包含噪声,则假设空间中可能不存在与所有训练样本都一致的假设。在此情形下,试设计一种归纳偏好用于假设选择

通常认为两个数据的属性越相近,则更倾向于将他们分为同一类。若相同属性出现了两种不同的分类,则认为它属于与他最临近几个数据的属性。也可以考虑同时去掉所有具有相同属性而不同分类的数据,留下的数据就是没误差的数据,但是可能会丢失部分信息。


4.本章1.4节在论述“没有免费的午餐”定理时,默认使用了“分类错误率”作为性能度量来对分类器进行评估。若换用其他性能度量 l ,试证明没有免费的午餐”定理仍成立

还是考虑二分类问题,NFL首先要保证真是目标函数f均匀分布,对于有X个样本的二分类问题,显然f共有 2 X 种情况。其中一半是与假设一致的,也就 P ( f ( x ) = h ( x ) ) = 0.5
此时, f l ( h ( x ) , f ( x ) ) = 0.5 2 X ( l ( h ( x ) = f ( x ) ) + l ( h ( x ) f ( x ) ) )
l ( h ( x ) = f ( x ) ) + l ( h ( x ) f ( x ) ) 应该是个常数,隐含的条件就该是(一个比较合理的充分条件) l ( 0 , 0 ) = l ( 1 , 1 ) , l ( 1 , 0 ) = l ( 0 , 1 ) 。如果不满足, NFL 应该就不成立了(或者不那么容易证明)。


5.试述机器学习在互联网搜索的哪些环节起什么作用

1.最常见的,消息推送,比如某东经常说某些商品我可能会感兴趣,然而并没有。
2.网站相关度排行,通过点击量,网页内容进行综合分析。
3.图片搜索,现在大部分还是通过标签来搜索,不过基于像素的搜索也总会有的吧。

猜你喜欢

转载自blog.csdn.net/icefire_tyh/article/details/52065224