机器学习概述

1.机器学习是英文Machine Learning 的翻译，主要研究使计算机模拟或者实现人类的行为，就像一个学生一样，通过学习获取新的知识或技能提高自身的性能。它是人工智能的核心，其应用遍及人工智能的多个领域，例如：图像处理、人脸识别、自然语言处理、数据挖掘、生物特征识别、检测信用卡欺骗、证卷市场分析、语音和手写识别等等。

2.根据学习方式的不同，常见的机器学习算法有监督学习算法；非监督学习算法；半监督学习算法和强化学习算法。

监督学习算法简介

1.监督学习可以理解为是从给定的训练数据集中学习出一个函数，当新的数据到来时，可以根据这个函数预测结果，监督学习的训练集要求是包括输入和输出，也可以说是特征和目标。训练集中的目标是由人类事先进行标注的。

2.监督学习重要应用于分类（Classify）和回归（regression）。常见的监督学习算法有k-近邻、决策树、朴素贝叶斯、Logistic回归、支持向量机和AdaBoost元、线性回归、局部加权线性回归、收缩和树回归。

非监督学习算法简介

1.在学习的过程中，只提供事物的具体特征，但不提供每个事物的名字。让学习者自己总结归纳。所以非监督学习又称归纳性学习（clustering），是指将数据集分成由类似的对象组成的多个簇（或者组）的过程。

2.常见的非监督学习算法有：k-均值、Aprior和FP-growth.

增强学习算法简介

1.增强学习（reinforcement learning， RL）又叫做强化学习，是近年来机器学习和智能控制领域的主要方法之一。通过增强学习，一个人类合作机器可以在什么状态下应该采取什么行动。增强学习是从环境状态到映射的学习，我们把这个映射成为策略，最终增强学习是学习到一个合理的策略。另一方面，增强学习是试错学习（Trail-and-error），由于没有直接的指导信息，参与学习的个体或者机器要不断与环境进行交互，通过试错的方式来获得最佳策略。另外，由于增强学习的指导信息很少，而且往往是在事后（最后一个状态）才得到的反馈，以及才用某个行动是获得正确回报或者负回报，如何将回报分配给前面的状态以改进相应的策略，策划下一步的操作。

如这个迷宫一般，只有分别尝试不同的路线，如果一个路线走错，那么就记录下来，再尝试其他的路线，有可能又回到上一个路口，走过的路是否正确，自己心中已经有一个规划，最终找到最合理的路径。

深度学习算法简介

1.深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习的结构。深度学习通过组合底层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

2.人工智能让机器和人一样具有智力，机器学习实现人工智能的基础，深度学习是一种特定类型的机器学习。

3.同机器学习方法一样，深度机器学习方法也有监督学习与无监督学习之分。不同的学习框架下建立的学习模型很是不同。例如，卷积神经网络就是一种监督学习下的机器学习模型，而深度置信网络就是一种无监督学习下的机器学习模型。

机器学习的常用术语

1.数据集

（1）训练集(Taining Set)：

顾名思义，它是总的数据集中用来训练模型的部分。尽管将所有训练集都拿来当作训练集也无不可，不过为了提高及合理评估模型的泛化能力，通常只会取数据集中的一部来来当作训练集。

（2）测试集(Test Set)：

顾名思义，它就是用来测试、评估模型泛化能力的部分。测试集不会用在模型的训练部分，换句话说，测试集相对于模型而言是“未知的”，所以拿它来评估模型的泛化能力是相当合理的。

（3）交叉验证集(Cross-Validation Set, CV Set):

这是比较特殊的一部分数据，用来调整模型具体参数的。

测试集和交叉验证集的区别：测试集是粗调参数，验证集主要是用于模型参数的细调，用于模型的优化。测试集则纯粹是为了测试已经训练好的模型的推广能力。

2.属性或者特征

雾霾天气下，“能见度”、“温度”、“湿度”、“路人戴口罩的情况”就是四个特征。

而（能见度）“低”、（温度）“低”、（湿度）“高”、（路人戴口罩的）“多”就是相对应的特征值。

3.标签或类别

与之相应的，有“空间标签”（Label Space），它描述了模型的输出“可能存在的空间”；当模型是分类器时，通常会称为“类别空间”。

酱橙C

发布了12 篇原创文章 · 获赞 16 · 访问量 442

私信关注

机器学习基础笔记