机器学习算法(一) 机器学习基础知识

引言

人工智能、机器学习以及深度学习的关系

人工智能的领域范围最广,深度学习领域最窄。也就是说,机器学习是人工智能的子领域,而深度学习又是机器学习的一个分支!

那么为什么还要学习机器学习而不是直接学习深度学习呢?正所谓“基础不牢,地动山摇”讲得就是这个道理,如果只是看看深度学习的效果,我相信只要你会 Python,从市面上买一本 TensorFlow 相关的实战书本就能够跑出一个实验,体会出深度学习的强大效果和能力。但是这不叫懂深度学习,甚至可以说没有入门。因为机器学习算法的奥妙在于算法优化和调优,因此不懂得它背后的原理,遇到新问题便没法做出好的效果。而且书本上的数据集一般是公开数据集,算法的最优参数早已给出,不需要你去通过理论或者实践去探索。但是现实工作中遇到的问题往往都是新的问题,大家都没遇到过的,这时候就需要你对算法又很深入的理解才能做出来了。

机器学习中的基本问题

机器学习的特点

  1. 机器学习算法以数据和特征为基础,是数据驱动的科学;
  2. 机器学习的目标是对数据进行预测与分析;
  3. 机器学习以模型方法为中心,并利用统计学习的方法构建模型,并且利用构建好的模型对未知的数据进行预测和分类;
  4. 机器学习是以概率论、统计学、信息论、计算理论、最优化以及计算机科学等多领域交叉的学科,因此要想在机器学习上有所成绩,必须要有深厚的数学基础。   

机器学习的对象

机器学习中最重要的概念就是特征,而特征是最后需要输入到模型中进行训练的多维数据向量,它是来自于各种不同类型的数据(如数字、文本、图像、音频、视频等)转换,这个转换的过程就是机器学习与数据挖掘领域很重要的一个步骤:“特征工程”。

机器学习的分类

严格意义上的机器学习算法应该分为四大类:有监督学习、无监督学习、半监督学习、强化学习。

  1. 有监督学习
    有监督学习是指进行训练的数据既包含特征向量又包含类别标签信息。也就是说,在训练的时候我们是知道每个样本所示的类别或者回归算法中的结果。这样,我们算法的训练过程就会根据类标对参数进行调整,就好比学习的过程被监督了一样,而不是漫无目的的学习。因此,我们就应该知道监督的意义了:学习的过程有类标作为指导算法参数调整的过程。
  2. 无监督学习
    相对于有监督学习,无监督学习过程中训练数据集只有每个数据实例的特征向量而没有其所属的标签结果。因此,无监督学习算法就不叫作分类,而往往都叫做聚类:“特征相似的聚集在一起”!
  3. 半监督学习
    半监督学习其实是一种结合有监督学习和无监督学习的学习方式,它是近年来的研究热点,主要想解决的问题是样本很难收集或者有类标的样本很少,绝大多数的样本缺失类标值的情况。这时候我们无法利用有监督学习直接进行训练,但是我们又想充分利用类标的信息。因此,半监督学习是一种介于有监督和无监督的一种折中方案。
  4. 强化学习
    所谓强化学习就是智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大,强化学习不同于连接主义学习中的监督学习,主要表现在教师信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统 RLS(Reinforcement Learning System)如何去产生正确的动作。由于外部环境提供的信息很少,RLS 必须靠自身的经历进行学习。通过这种方式,RLS 在行动-评价的环境中获得知识,改进行动方案以适应环境。

机器学习的要素

李航老师在《统计学习方法》中将机器学习的三要素总结为:模型、策略和算法。其大致含义如下:

  1. 模型:其实就是机器学习训练的过程中所要学习的条件概率分布或者决策函数。
  2. 策略:就是使用一种什么样的评价,度量模型训练过程中的学习好坏的方法,同时根据这个方法去实施的调整模型的参数,以期望训练的模型将来对未知的数据具有最好的预测准确度
  3. 算法:算法是指模型的具体计算方法。它基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后考虑用什么样的计算方法去求解这个最优模型。

拓展:
特征:因为机器学习界流行的一句话:数据和特征决定了机器学习算法的上界,而模型和算法只是逼近这个上界而已。这句话也充分说明了一个事实:无论你的机器学习算法模型的识别效果多么准确,如果没有好的特征的话,也等于白搭。换句话说,数据和特征确定了以后,算法最好能做到怎么样基本上已经确定了。此时好与坏算法的差别可能就在于谁更接近基于这个数据和特征的效果上限。

机器学习建模过程

模型的求解
image.png
image.png
有了以上的数据表示,那么对于一个机器学习算法来说,基本上的提出过程可以总结为以下步骤:
image.png
image.png

经验风险与结构风险
image.png
image.png

猜你喜欢

转载自blog.csdn.net/datawhale/article/details/81201823