机器学习的再认知

根据已有的输入数据进行学习：将经验转化为知识的过程。

在这里插入图片描述

知识的存在形式
通过模型输出的知识，是能够被其他计算机程序所引用的形式。

而仅仅了解到上面这些宏观的描述其实远远不够，我们将带着问题逐步展开：

在这个步骤，我们可以通过两个关键词来理解：

无疑机器是非常善于死记硬背的了，比如针对垃圾邮件，让机器存储过去所有的垃圾邮件，进来新邮件时，就与这些存储的垃圾邮件对比，如果能够匹配，就判定其为垃圾邮件，反之则不是。

这个过程，可以称之为通过记忆进行学习，没有见过的邮件它是标记不了的，当然这里很容易引起误会，邮件进来怎么可能是完全一致的呢？所以这个例子不是特别好，但是必须注意，这里强调的就是邮件必须完全一致，才能判定为垃圾邮件。

前面铺垫，是想引出一个新的关键词：泛化。

在机器学习的世界里，始终记住一句话：最重要的是模型在未知数据上的应用，而不是在训练数据上的效果有多好。

再回到垃圾邮件的案例，通过对见过的垃圾邮件进行关键词抽取，当新邮件进来时，检查是否有相应的关键词被触发，就可以判定邮件是否为垃圾邮件。

这种方法叫归纳推理，是实现泛化的一种方式。

注意，归纳推理，可能推出的是错误的结论。

先验知识的影响

书上举的案例很有意思，一下子就能让人建立起先验知识对学习机制影响的画面感。

当老鼠进食后，给它们施以不愉快的刺激，比如电击等。即使电击次数增加，也不能改变老鼠要去进食的行为。这个训练的目的是让进食和不愉快的结果之间产生关联，从而降低老鼠进食的行为，但是结果显示，老鼠的进食不受影响，虽然有不舒服的结果。

那么这个训练过程就是无效的，为什么会这样呢？答案就是老鼠的先验知识，这些先验知识告诉它们，虽然食物和不愉快的刺激似乎有因果关系，但是老鼠的经验告诉它们这是不存在的。

也即：先验知识可以导致学习过程产生偏差。

更具体一些（但粗略）来讲，先验知识越强，越容易从样本中进行学习（不能是反着的因果关系）；而先验假设越强，则学习会越不灵活。

这个就是很经典且无新意的分类方式了：

监督学习 vs. 无监督学习

学习是利用经验获得技能的过程。

监督学习提供的数据就是这样的经验。无监督学习的训练数据和测试数据无区别，也就是没有经验可循，所以只能做一些提取概括信息的事情。

在这两个的中间，训练数据比测试数据有更多的信息，同时我们也要求学习器能够预测出更多信息，这类学习称作强化学习。

主动学习 vs. 被动学习

主动学习是指：训练时通过提问或实验的方式与环境交互。

被动学习：只观察环境提供的信息而不影响它。 – 填鸭式教学。

注：垃圾邮件过滤一般用被动学习，等待用户自己标记电子邮件，只观察，不交互。

但是用主动学习方法来做，比如要求用户标注学习器挑选的电子邮件，来提高学习器对垃圾邮件是啥的理解，这是可行的。

在线学习 vs. 批量学习

略。

机器学习的数据是随机生成的，机器学习的任务是处理这些随机生成的样本。

机器学习和统计学的关系后面会专门列一篇出来讲。

END.

参考资料：

《Understanding Machine Learning》