一、机器学习的数据

image.png

大写字母表示矩阵，小写字母表示向量
标记一般也叫做标签

image.png

每一行本身组成了一个特征向量，但是一般说向量都是一个列向量，所以每一行的特征向量的表示用列向量来表示

image.png

特征空间：每一个样本的本质，其实就是在这些特征所组成的空间中的一个点，这个空间就称为特征空间
分类任务的本质，就是在特征空间进行切分

机器学习算法在高维空间中的分析方法一般都是只取两个特征进行分析，然后将低维空间中的规律推广至高维空间。

image.png

特征可以是很明确的花瓣长度、宽度，也可以说是很抽象的，比如图片上的像素点就是一个特征。

喂给机器的特征是什么样子的，将很大程度决定我们的算法最终计算出来的结果的有效性和可靠性，甚至对于这一方面有专门的领域来研究，就是所谓的特征工程。

深度学习可以理解为算法在帮我自动的进行特征工程。

二、机器学习的基本任务

分类任务

二分类任务
- 垃圾邮件判定
- 是否恶性肿瘤
- 股票涨跌
多分类任务
- 手写数字识别
- 图像识别
- 信用卡评级
- 很多复杂问题通过设置阶段级别等手段也可以转换成多分类问题
多标签分类
- 二分类和多分类都是限定在一个类别中，区别只是在于在该类别下可选的类别数到底是两个还是多个，而更高级的分类任务，可以进行多个类别的分类。
- 如，一张照片，可以分到多个类别中，识别出T恤标签，网球拍标签，女孩标签等，进而可以以此来推断出这个图片表示的语义。
  
  image.png
  
  image.png

回归任务
与分类任务最大的不同就是数据集的标签列（label），标签列的值是离散值就是分类任务，是连续值就是回归任务。

结果是一个连续数字的值，而非一个类别
- 房价价格
- 股票价格
- 学生成绩
一些情况下，回归任务可以简化成分类任务
- 学生成绩，只需预测是A，A+，B
- 无人车打方向盘的角度，多少角度是一类

image.png

什么是机器学习

需要大量的学习资料，即数据集dataset
将数据集喂给我们的机器学习算法
机器学习算法将根据我们的数据集训练一个模型
而这个模型是我们进一步解决问题的核心
当有了新的样本资料以后，是根据这个模型来得出输出结果的

那么到底什么是模型，可以非常简单的把模型就理解成一个函数，换句话说，我们的机器学习算法本质上得到的就是一个f(x)的函数，这样当我有了新的样本资料即x，把这个样本送到f(x)，那么f(x)就可以根据他的函数计算规则，得到一个结果，如果结果是0,1,2,3,4这种类别的话就是分类任务，如果是连续值的话就是回归任务。

image.png

机器学习的分类：

从解决问题的角度分类：分类和回归
从机器学习算法本身：监督学习，非监督学习，半监督学习，增强学习

image.png

监督学习：

给机器的训练数据拥有"标记"（label）或者"答案" ，即有小y

image.png

非监督学习：

给机器的训练数据没有任何“标记”或者“答案”

image.png

非监督学习的意义：

对数据进行分类——聚类分析
对数据进行降维处理

特征提取：通过分析从而将无用的特征扔掉，这个叫特征提取，有时候需要专业的领域知识才能做好。
特征压缩：并非扔掉特征，而是将特征之间关联性特别强的特征组用一个特征来表示，大大提高机器学习项目的运行效率，却并不影响预测的准确率
异常检测：一类数据中存在一些点，明显是异常的。

image.png

image.png

半监督学习

一部分数据有“标记”或者“答案”，另一部分数据没有（是更常见的情况，因为有各种原因产生的标记缺失）

例如手机相册，有的会标记上属于个人信息，属于青岛旅游，但是还有一些并没有标记。

image.png

增强学习

称Agent为一个机器学习算法，要根据周围的环境来采取action，根据采取行动后收到的反馈（正反馈或者负反馈），改进自己的行为模式（算法），之后再面对环境的其他情况时，根据改进的算法，再做出相应的action，不断往复。

适合机器人（Alpha Go）等强人工智能场景

image.png

机器学习的其他分类

在线学习和批量学习（离线学习）
参数学习和非参数学习

image.png

批量学习：

训练出的模型，可以直接投入生产使用，有新的样例过来，通过这个模型来预测出相应结果，这个过程中模型不会再发生任何变化了(即不会再作为训练集来优化我们的模型了)

image.png

但是如垃圾邮件识别，随着时间的推移，新的种类的垃圾邮件层出不穷，明年垃圾邮件的样式可能和今年有很大不同，所以今年训练出的垃圾邮件的识别系统，希望能使用三年五年甚至二十是不现实的，可以通过对新数据增加标记然后融合旧数据来重新批量学习。

但是如股市这种环境每时每分每秒都在不断变化的情况，如果需要算法能及时适应环境的变化，就需要使用在线学习的方法，及时将新产生的数据用于改进我们的机器学习模型。

image.png

在线学习：

整体的机器学习的算法流程不变，只不过区别在于每次我们输入一个新的样例进入模型，得到一个预测的输出结果后的同时，刚进来的这个新的输入样例并不浪费掉，我们将这个输入样例和（在一些情况下能马上拿到的）相应的正确(实际)结果（注意，并非是输出结果）结合，仍然持续不断的训练这个算法，让这个算法进行学习。

比如：股市，现在要预测下一分钟的股价，即可得到一个下一分钟的预测股价，而一分钟后，我们同时也拿到了实际的正确股价，包括我们预测的股价和实际的股价的差异，那么这些信息仍然是一个机器学习训练所需的资料，然后我们可以将这些信息迭代进我们的机器学习算法，来改进我们的模型，以此类推，这个过程不断的循环，相当于在线的过程不仅仅简单的运用这个模型得到一个预测结果，与此同时我们还在不断训练这个算法，让这个算法进行学习，所以叫做在线学习。

感想：可以肯定的是在线学习包含增量学习，在线学习和增量学习一个区别实际就在于是否有7x24小时稳定在线运行的概念以及是否有不断将下一刻的实际数据来训练模型。