Matlab机器学习入门(一)

1.写在最前面

从零开始接触机器学习,寒假将做一系列Matlab的学习笔记,以此来记录一个通信工程的学生接触Matlab的全过程。

2.什么是机器学习

机器学习是针对数据的一种建模技术。这里的数据指信息,如文档、音频、图像等。“模型”则是机器学习的最终产品。机器学习的诞生就是为了解决那些难以得出解析模型的问题,其技术的核心思想就是在无法使用公式及定理得到满意结果时,利用训练数据来建立模型。

Created with Raphaël 2.3.0 训练数据 机器学习 模型

3.机器学习面临的挑战

训练数据与输入数据之间存在差异时机器学习面临的结构性挑战,是机器学习所存在的一切问题的根源。
机器学习和深度学习均无法基于错误的训练数据来实现预期目标。因此,对于机器学习而言,获取能够充分反映实际领域数据特征的无偏训练数据至关重要。
泛化(generalization)是确保模型对于训练数据与输入数据能够获得一致性能的处理过程。机器学习能否成功很大程度上取决于泛化的有效程度。

3.1过拟合

泛化过程失效的主要诱因之一就是过拟合(overfitting)。示例如下图,
在这里插入图片描述
显然由训练数据的一般趋势可以反映出该模型是有问题的。我们仔细看数据点,会发现某些异常数据点穿过了边界进入另一分类所对应的区域。换言之,这些数据中包含一些噪声。问题是机器学习无法区分噪声。如果机器学习考虑包括噪声的所有数据,它将生成一个不合理的模型(如上图曲线)。
由此可知,训练数据不是完美无瑕的,其中可能包含不同程度的噪音。如果认为训练数据中的每一个元素都是准确的,并且精确匹配模型,将得到一个普适性较低的模型,即过拟合。
机器学习的本源特性是竭尽所能地从训练数据中抽象出一个优质模型,但适用于训练数据的模型可能无法有效地应用于实际数据。 这并不意味着应该有意降低模型对训练数据的准确性,那将会违背机器学习的基本原则。

3.2克服过拟合

有两种办法可以实现,为正则和验证。
正则化(Regularization)是一种构建极简模型的数值方法。精简后的模型能以较小的性能代价,避免过拟合的影响。简单曲线虽然未能正确划分部分数据点,但能更好地反映各分类的总体特征。
验证(validation)的存在为了确定由训练建立的模型是否存在过拟合,通过预留一部分训练数据来监控模型的性能,验证数据集不参与训练过程。

4.机器学习的类型

根据训练方法的不同,机器学期技术可以分为以下三种类型:
监督学习(supervised learning)
无监督学习(unsupervised learning)
增强学习(reinforcement learing)
监督学习与人类学习事物的过程非常相似。在监督学习中,每个训练数据集均由输入与标准输出构成的数据对构成,标准输出是模型对该输入应生成的预期结果。监督学习的学习过程即是对模型自身进行一系列修正,以降低模型依据输入所生成的输出与标准输入之间的差异的过程。如果模型训练得很完善,就能对输入训练数据生成该数据对应的标准输出。
监督学习最常见的两类应用是分类(classification)与回归(regression)分类问题所关注的就是寻找数据所属的类别,数据中的类别即作为对应输入的标准输出;回归则是预测数值。

Guess you like

Origin blog.csdn.net/weixin_51612903/article/details/122268248