人工智能原理之机器学习

1.机器学习的概念

1.1机器学习三种定义
(1) 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。
(2) 机器学习是对能通过经验自动改进的计算机算法的研究。
(3) 机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。

1.2机器学习的研究方面
机器学习的研究主要有3个方面：
（1）认知模型。主要目的是通过对人类学习机理的研究和模拟，从根本上解决机器学习方面存在的种种问题。
（2）理论性分析。主要目的是从理论啥探索各种可能的学习方法，并建立起独立于具体应用领域的学习算法。
（3）面向任务的研究。主要目的是根据特定任务的要求，建立相应的学习系统。

1.3机器学习的类型
对机器学习的分类方法有很多种。
按照人工智能的不同学派可以分为符号主义机器学习、连接主义机器学习。
按照学习策略可以分为机械学习、传授学习、演绎学习、归纳学习、和类比学习。
按照学习方式可以分为监督学习、非监督学习、强化学习。
并且每种学习可以细分。例如基于符号主义的机器学习课根据其发展过程和采用的主流方法，分为基于样例的符号学习和基于概率统计的统计学习；基于连接主义的机器学习可以分为基于浅层神经网络的浅层连接学习和基于深层神经网络的深度学习。

补充：人工智能研究中的不同学派
人工智能研究中的不同学派：符号主义、连接主义、行为主义。
符号主义又称逻辑主义、心理学派、计算机学派，是基于物理符号系统假设和有限合理性原理的人工智能学派。符号主义认为，人工智能起源于数理逻辑，人类认知（智能）的基本元素是符号。认知过程是符号表示上的一种运算。代表性成果是1957年纽厄尔和西蒙等人研制的成称为逻辑理论机的数学定理证明程序LT（Logic Theorist）。LT的成功说明了可以用计算机来研究人的思维过程，模拟人的智能活动。
连接主义又称仿生学派、生理学派，是基于神经网络及网络间的连接机制与学习算法的人工智能学派。连接主义认为，人工智能起源于仿生学，特别是对人脑模型的研究。代表性成果是1943年㓟麦卡洛克和皮茨创立的脑模型，即BM（Brain Model）。
行为主义又称为进化主义或控制论学派，是基于控制论和“感知—动作”控制系统的人工智能学派。行为主义认为人工智能源于控制论，提出智能取决于感知和行为，取决于对外界复杂环境的适应，而不是表示和推理。代表性成果是布鲁克斯研制的机器虫。

2.监督学习的概念

2.1监督学习的定义
监督学习:每个数据点都被标记或关联为一个类别或者分值。类别标签的例子是给一张图片分配一个猫或者狗的字段。分值标签的例子是为一辆二手车一个出售价格。
监督学习的目标就是学习大量类似这样的样本（叫作训练数据），而对未来的数据点做出预测（叫作测试数据)。预测结果分为两个情况，比如图片中识别正确的动物(叫作分类问题)，或者为其他二手车分配一个准确的出售价格（叫作回归问题)。

2.2监督学习的两种形式之分类
分类:使用数据来预测类别的这些监督学习就叫做分类。有个好的例子就是预测一张图像中是否包含一只猫或者一只狗。这里，数据的标签就是类别，只能是其中一类或者另一类，而不可能是两类的混合结果。
当只有两种选择时，就叫做二分类或者二值分类。
当有多于两种选择时，就叫做多类分类。

2.3监督学习的两种形式之回归
回归:使用数据预测真实值的这些监督学习就叫作回归。有个好的例子就是当预测股票价值的时候。不像预测股票的类别那样，回归的目标是尽可能准确地测目标值;比如，以尽可能小的误差来预测股票价格。

补充：使用评分函数评估模型性能
在二值分类的任务中，也就是只看两个不同的类别标签的情况下，有几种不同的方来评估分类的效果。—些常见的指标如下所示:
accuracy_score:准确率指的是在测试数据集中，那些预测正确的数据点的数量除以整个测试数据集的大小。比如在把图片分为猫或者狗的类别时，准确率表示的就是那些被正确分为包含猫或者狗的图片的比例。对于分类器来说，这是最基本的评分函数。
precision_score:精确率描述的是分类器把包含狗的图片不分为猫的能力。换句话说，在分类器认为测试数据集中所有包含猫的图片中，精确率是其中真正包含猫的图片的比例。
recall_score:召回率（或敏感率）描述旳是分类器从所有包含猫的图片中检索猫的能力。换句话说，在测试数据集中所有包含猫的图片中，召回率是那些已经被正确识别为猫的图片的比例。

二分类器的混淆矩阵
在这里插入图片描述

3.无监督学习

3.1无监督学习的定义
非监督学习:数据点没有相关的标记。与此相反，非监督学习算法的目标是以某种方式来组织数据或者描述数据的结构。这就意味着把这些数据进行聚类或者发现其他不同的方式来观察数据，从而让这些数据看起来更简单些。

3.2非监督学习的应用
非监督学习可能有很多形式，但它们的目标息是把原始数据转换为更加丰富、更加有意义的表示，这么做既可以让人们更容易理解，也可以更方便机器学习算法进行解析。
降维:它接收一个包含许多特征的数据的高维表示，尝试对这些数据进行压缩，以使其主要特征可以仅用少量的、携带高信息量的特征来表示。比如，当在波士顿街区的房价预测时，降维也许就可以告诉我们最应该关注房产税和街区的犯罪率这两个指标。
因子分析.它尝试找到导致被观察到的数据的隐含因素或者未观察到的方面。比如，当应用到20世纪70年代的电视剧Sco0by-Doo,Where Are You!的所有剧集时，因子分析就可以告诉我们（小心副添I），电视剧中的每个鬼魂或者怪物基本一些心怀不满的爵士在镇卜精心设计的骗局。
聚类分析：它尝试把数据分成相似元素组成的不同组。比如，当应用到Netflix上的所有电影时，聚类分析可以主动把它们归类到不同的类别中。

4.强化学习

强化学习的定义
强化学习：算法会根据各个数据点选择动作进行响应。这是机器人科学中比较常见的算法，一组感知器在某个时间点读取的数据就是一个数据点，这时算法需要为机器人的下一个动作做出选择。这也是物联网应用的本质需求，学习算法在未来一小段时间内接收到奖励信号，这个信号可以表明这个决策的好坏。基于此，算法会不断地修改策略以得到最高的奖励。

参考书：《机器学习使用OpenCV和Python进行人工智能图像处理》，Michael Beyeler著
《深度学习》，lan Goodfellow，Youshua Bengio，Aaron Courville著