《机器学习》 绪论

    现实中更多时候,需依据任务特点对现有套路进行改造融通,算法是死的,思想才是活的。欲行此道,则务须把握算法背后的思想脉络,无论创新科研还是应用实践,皆以此为登堂入室之始。  ——周志华

1 引言

    何为机器学习:致力于研究通过计算机的手段,利用经验来改善系统自身的性能。

1.2 基本术语

    分类:给出一个离散的预测,比如:好瓜,坏瓜。(包括二分类和多分类)

    回归:预测的是连续值,如:好瓜的概率是0.65或瓜的成熟度是0.7。

    聚类:将训练集分成若干组(簇),这些簇可能对应一些潜在的概念划分,如“浅色瓜”、“深色瓜”。

    监督学习和无监督学习:根据训练数据是否拥有标记信息,学习任务可以分为两类,监督学习(分类、回归)和无监督学习(聚类)。

    特征向量(或者特征):反映事件或对象在某方面的性质。例如:西瓜的色泽。

    回归问题:通常是用来预测一个值,如预测房价、未来的天气情况等等。回归是对真实值的一种逼近预测。

    分类问题:判断失误的类别。

    样本空间:下面的图表示样本空间(sample space)或者属性空间(attribute space),我们也可以看到这是一个三维空间。当维数更多时候,则有更高维空间与之对应。

1.3  假设空间

    归纳:特殊到一般,即泛化。

    演绎:一般到特殊,即特化。

    假设空间:每种特征的组合都认为是一个假设(hypothesis),如,(色泽=青绿;根蒂=蜷缩;敲声=浊响)是一种假设,所有假设的集合我们称之为假设空间。如果“色泽”,“根蒂”,“敲声”分别有3,2,2种可能,(每种特征值都要加一种任意值可能)那么假设空间的规模就是4x3x3 + 1 = 37。(每种特征值在计算可能性的时候都加了一种可能,就是任意值可能,我们用“*”表示,最后结果加1是由于存在一种可能就是根本没有“好瓜”这个概念,或者说“好瓜”跟这些特征都没有关系)

    版本空间:当给定一个训练集进行训练的时候,模型会逐渐删除那些与正例不一致的假设和(或)与反例一致的假设,最后获得与训练集一致的假设。而剩下的这些假设可能有多个,我们把剩下的这些假设的集合称之为“版本空间”。

    简而言之,假设空间是我们没有进行训练之前的各种情况集合,而版本空间是我们训练完成后的结果。

1.4 归纳偏好

    归纳偏好作用:如果没有偏好,所有的假设都是等效的,那么输出的判断将会没有意义,如书上的对瓜的预测时而是好瓜时而是坏瓜,这样的结果没有意义。偏好有利于产生“正确”的模型。

    奥卡姆剃刀定律(确立正确的偏好):即简单有效原则,说的是,切勿浪费较多东西去做,用较少的东西,同样可以做好的事情。所以,相比复杂的假设,我们更倾向于选择简单的、参数少的假设;同时,我们还希望选择更加简单的模型,使得有效的假设的数量不是很多。

    NFL定理(No free  lunch):指在机器学习中,没有给定具体问题的情况下,或者说面对的是所有问题的情况下,没有一种算法能说得上比另一种算法好。换成我们的俗话讲,就是“不存在放之四海而皆准的方法”。只有在给定某一问题,比如说给“用特定数据集给西瓜进行分类”,才能分析并指出某一算法比另一算法好。这就要求我们具体问题具体分析,而不能指望找到某个算法后,就一直指望着这个“万能”的算法。

1.5 发展历程

    略。

1.6 应用现状

    略。



猜你喜欢

转载自blog.csdn.net/qq_23291793/article/details/79614467
今日推荐