机器学习基础概念（一）

“无监督学习”是指人们在获得训练的向量数据后在没有标签的情况下尝试找出其内部蕴含关系的一种挖掘工作，这个过程中使用者除了可能要设置一些必要的超参数（ hyper-parameter）以外，不用对这些样本做任何的标记甚至是过程干预；

“有监督学习”与此不同，每一个样本都有着明确的标签，最后我们只是要总结出这些训练样本向量与标签的映射关系。

所以这在这两种方式下，处理的逻辑有很大的区别，初学的朋友需要格外注意。

聚类（ clustering）是一种典型的“无监督学习”，是把物理对象或抽象对象的集合分组为由彼此类似的对象组成的多个类的分析过程。

较常用的聚类算法有 K -means、DBSCAN等几种，基本的思路就是利用每个向量之间的“距离”一一空间中的欧氏距离或者曼哈顿距离，从远近判断是否从属于同一类别。

回归是一种解题方法，或者说“学习”方法。

简单说就是“由果索因” 的过程，是一种归纳的思想一一当我看到大量的事实所呈现的样态，我推断出原因或客观蕴含的关系是如何的；当我看到大量的观测而来的向量（数字）是某种样态，我设计一种假说来描述它们之间蕴含的关系是如何的。

，最常用的回归有两大类一一一类是线性回归，一类是非线性回归。

所谓线性回归，就是在观察和归纳样本的过程中认为向量和最终的函数值呈现线性的关系。而后设计这种关系为：

y=J(x)=wx+b

这里的 w 和 x 分别是 1 × n 和 n × 1 的矩阵， wx 则指的是这两个矩阵的内积。

非线性回归类中，在机器学习领域应用最多的当属逻辑回归。逻辑回归看上去更像分类。在这种模型中观察者假设的前提是y 只有两种值：一种是 l ，一种是 0，或者说“是”或“否”的这种判断。

分类的训练过程和回归的训练过程一样，都是极为套路化的程序。

第一，输入样本和分类标签。

第二，建立映射假说的某个y=f{x）的模型。

第三，求解出全局的损失函数 Loss 和待定系数 w 的映射关系， Loss=g(w）。

第四，通过迭代优化逐步降低 Loss，最终找到一个 w 能使召回率和精确率满足当前场景需要。

注意，这里尤其指在验证数据集上的表现。

生成对抗网络（ Generative Adversarial Network），这种网络的特点就是可以进行复杂内容的生成，而非生成一个标签这么简单。

激励函数（ activation function) －一也有翻译成激活函数的，也是神经元中重要的组成部分。激励函数在一个神经元当中跟随在j{x）＝附＋b 函数之后，用来加入一些非线性的因素。

Sigmoid 函数 它的定义是这样的：

Sigmoid 函数是一种较早出现的激励函数，把激励值最终投射到了。和 1 两个值上。通过这种方式引入了非线性因素。其中的“1”表示完全激活的状态，“0”表示完全不激活的状态，其他各种输出值就介于两者之间，表示其激活程度不同。

Tanh 函数在后面学习循环神经网络 RNN ( recurrent neural networks）的时候我们就会接触到了。

.ReLU 函数 (修正线性单元)

ReLU 函数是目前大部分卷积神经网络 CNN ( convolutional neural networks）中喜欢使用的激励函数，它的全名是 rectified linear units。

Linear 函数

Linear 激励函数在实际应用中并不太多，原因刚刚已经做过简单的解释了。那就是如果网络中前面的线性层引人的是线性关系，后面的激励层还是线性关系，那么就会让网络没办法很好地拟合非线性特性的关系，从而发生严重的欠拟合现象。

神经网络

一个神经网络中通常会分这样几层：输入层（ input layer）、隐藏层（ hidden layer，也叫隐含层）、输出层（output layer）。

输入层在整个网络的最前端部分，直接接受输入的向量，它是不对数据做任何处理的，所以通常这一层是不计人层数的。

隐藏层可以有一层或多层，现在比较深的网络据我所知有超过 50 层的，甚至在一些“特殊”的网络一一例如深度残差网络中有超过 150 层的！这已经非常多了，在本书所涉及的实验中是没有这么多层的神经网络出现的。

输出层是最后一层，用来输出整个网络处理的值，这个值可能是一个分类向量值，也可能是一个类似线性回归那样产生的连续的值，也可能是别的复杂类型的值或者向量，根据不同的需求输出层的构造也不尽相同，后面我们会逐步接触到。