监督学习

监督学习简单来说就是我们给学习算法一个数据集。这个数据集由“正确答案”组成，然后使用已知正确答案的示例来训练网络，从而得到一个最优的模型。

也就是说，在监督学习中训练数据既有特征(feature) 又有标签(label)，通过训练，让机器可以自己找到特征和标签之间的联系，在面对只有特征没有标签的数据时，可以判断出标签。

一般步骤：数据集的创建和分类----》训练----》验证----》应用

经典算法：支持向量机、线性判别、决策树、朴素贝叶斯

监督学习分为：回归问题和分类问题

回归问题

回归：我们在试着推测出一系列连续值属性
回归问题：我们试着推测出一个连续值的结果，输出一个数值，针对连续型变量。简单来说：

对已经存在的点（训练数据）进行分析，拟合出适当的函数模型y=f(x)，这里y就是数据的标签，而对于一个新的自变量x，通过这个函数模型得到标签y

举个栗子：预测房价。根据收集到的一系列房子的数据，我们给定数据集中每个样本的正确价格，即它们实际的售价，然后运用学习算法，算出更多的正确答案。比如预测购买的新房子的价格。

分类问题

与回归问题不同的是输出的内容不一样。在回归问题中机器输出的是一个数值，在分类问题里面机器输出的是类别，针对离散型变量。

无监督学习

与监督学习相比，无监督学习更像是自学。所给的数据集是未加标签的数据，没有类别信息，也没有给定的目标值，需要根据聚类或一定的模型得到数据之间的关系。

经典算法：聚类K-means算法（K均值算法），主成分分析PCA

半监督学习

半监督学习在训练阶段结合了大量未标记的数据和少量标签数据。与使用所有标签数据的模型相比，使用训练集的训练模型在训练时可以更为准确，而且训练成本更低。

强化学习

强化学习，又称再励学习或者评价学习，目标就是获得最多的累计奖励。

强化学习采用的是边获得样例边学习的方式，在获得样例之后更新自己的模型，利用当前的模型来指导下一步的行动，下一步的行动获得reward之后再更新模型，不断迭代重复直到模型收敛。

个人理解就是：别想太多，先干起来，如果方向对了，就继续干；如果错了，就吸取经验，加以改正，通过不断的"试错"来学习积累。

即想要理解信息，获得输入到输出的映射，就需要从自身的以往经验中去不断学习来获取知识，从而不需要大量已标记的确定标签，只需要一个评价行为好坏的奖惩机制进行反馈，强化学习通过这样的反馈自己进行“学习”。（当前行为“好”以后就多往这个方向发展，如果“坏”就尽量避免这样的行为，即不是直接得到了标签，而是自己在实际中总结得到的）

对于 强化学习和监督式学习的区别与强化学习和无监督式学习的区别 见参考链接③

参考链接

①一文读懂监督学习、无监督学习、半监督学习、强化学习这四种深度学习方式

②机器学习、监督学习、非监督学习、强化学习、深度学习、迁移学习_明月清风-程序员宅基地

③李宏毅《深度学习》（一）

理解监督学习、无监督学习、半监督学习、强化学习