机器学习的再认知

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u011240016/article/details/84726915

机器学习的含义

根据已有的输入数据进行学习:将经验转化为知识的过程。

在这里插入图片描述

知识的存在形式
通过模型输出的知识,是能够被其他计算机程序所引用的形式。

而仅仅了解到上面这些宏观的描述其实远远不够,我们将带着问题逐步展开:

  • 输入计算机的训练数据是什么?
  • 学习过程是如何进行的?
  • 如何评价学习过程的成败,优劣,好坏?

什么是机器学习

在这个步骤,我们可以通过两个关键词来理解:

  • 死记硬背
  • 举一反三

无疑机器是非常善于死记硬背的了,比如针对垃圾邮件,让机器存储过去所有的垃圾邮件,进来新邮件时,就与这些存储的垃圾邮件对比,如果能够匹配,就判定其为垃圾邮件,反之则不是。

这个过程,可以称之为通过记忆进行学习,没有见过的邮件它是标记不了的,当然这里很容易引起误会,邮件进来怎么可能是完全一致的呢?所以这个例子不是特别好,但是必须注意,这里强调的就是邮件必须完全一致,才能判定为垃圾邮件。

前面铺垫,是想引出一个新的关键词:泛化

在机器学习的世界里,始终记住一句话:最重要的是模型在未知数据上的应用,而不是在训练数据上的效果有多好。

再回到垃圾邮件的案例,通过对见过的垃圾邮件进行关键词抽取,当新邮件进来时,检查是否有相应的关键词被触发,就可以判定邮件是否为垃圾邮件。

这种方法叫归纳推理,是实现泛化的一种方式。

注意,归纳推理,可能推出的是错误的结论。

先验知识的影响

书上举的案例很有意思,一下子就能让人建立起先验知识对学习机制影响的画面感。

当老鼠进食后,给它们施以不愉快的刺激,比如电击等。即使电击次数增加,也不能改变老鼠要去进食的行为。这个训练的目的是让进食和不愉快的结果之间产生关联,从而降低老鼠进食的行为,但是结果显示,老鼠的进食不受影响,虽然有不舒服的结果。

那么这个训练过程就是无效的,为什么会这样呢?答案就是老鼠的先验知识,这些先验知识告诉它们,虽然食物和不愉快的刺激似乎有因果关系,但是老鼠的经验告诉它们这是不存在的。

也即:先验知识可以导致学习过程产生偏差

更具体一些(但粗略)来讲,先验知识越强,越容易从样本中进行学习(不能是反着的因果关系);而先验假设越强,则学习会越不灵活。

学习的种类

这个就是很经典且无新意的分类方式了:

  • 监督学习 vs. 无监督学习
  • 主动学习 vs. 被动学习
  • 在线学习 vs. 批量学习

监督学习 vs. 无监督学习

学习是利用经验获得技能的过程。

监督学习提供的数据就是这样的经验。无监督学习的训练数据和测试数据无区别,也就是没有经验可循,所以只能做一些提取概括信息的事情。

在这两个的中间,训练数据比测试数据有更多的信息,同时我们也要求学习器能够预测出更多信息,这类学习称作强化学习

主动学习 vs. 被动学习

主动学习是指:训练时通过提问或实验的方式与环境交互

被动学习:只观察环境提供的信息而不影响它。 – 填鸭式教学。

注:垃圾邮件过滤一般用被动学习,等待用户自己标记电子邮件,只观察,不交互。

但是用主动学习方法来做,比如要求用户标注学习器挑选的电子邮件,来提高学习器对垃圾邮件是啥的理解,这是可行的。

在线学习 vs. 批量学习

略。

机器学习与其他领域的关系

机器学习的数据是随机生成的,机器学习的任务是处理这些随机生成的样本。

机器学习和统计学的关系后面会专门列一篇出来讲。

END.

参考资料:

《Understanding Machine Learning》

猜你喜欢

转载自blog.csdn.net/u011240016/article/details/84726915