机器学习（一）机器学习简介以及常用的算法

机器学习

机器学习研究和构建的是一种特殊算法（而非某一个特定的算法），能够让计算机自己在数据中学习从而进行预测。

所以，机器学习不是某种具体的算法，而是很多算法的统称。

机器学习的基本思路

监督学习是指我们给算法一个数据集，并且给定正确答案。机器通过数据来学习正确答案的计算方法。

分类: 就是通过已有数据集(训练集)的学习,得到一个目标函数f (模型) , 把每个属性集x映射到目标属性y (类) ,且y必须是离散的(若y为连续的，则属于回归算法)。通过对已知类别训练集的分析,从中发现分类规则,以此预测新数据的类别。

分类算法通过对已知类别训练集的分析，从中发现分类规则,以此预测新数据的类别。分类算法的应用
非常广泛,银行风险评估、客户类别分类、文本检索和搜索引擎分类、安全领域中的入侵检测以及软件项目中的应用等。

非监督学习中，给定的数据集没有“正确答案”，所有的数据都是一样的。无监督学习的任务是从给定的数据集中，挖掘出潜在的结构

无监督学习常见的2类算法是：聚类、降维

聚类： 简单说就是一种自动分类的方法，在监督学习中，你很清楚每一个分类是什么，但是聚类则不是，你并不清楚聚类后的几个分类每个代表什么意思。

降维： 降维看上去很像压缩。这是为了在尽可能保存相关的结构的同时降低数据的复杂度。

聚类: 就是将相似的事物聚集在一起，而将不相似的事物划分到不同的类别的过程。它是一-种探
索性的分析，不必事先给出一一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚
类分析所使用方法的不同,常常会得到不同的结论。

常见算法:层次聚类、划分聚类、基于密度的聚类

强化学习更接近生物学习的本质，因此有望获得更高的智能。它关注的是智能体如何在环境中采取一系列行为，从而获得最大的累积回报。通过强化学习，一个智能体应该知道在什么状态下应该采取什么行为。

最典型的场景就是打游戏。

通过上面的内容，我们对机器学习已经有一些模糊的概念了，这个时候肯定会特别好奇：到底怎么使用机器学习？

机器学习在实际操作层面一共分为7步：

监督学习是一种目的明确的训练方式，你知道得到的是什么；而无监督学习则是没有明确目的的训练方式，你无法提前知道结果是什么。
监督学习需要给数据打标签；而无监督学习不需要给数据打标签。
监督学习由于目标明确，所以可以衡量效果；而无监督学习几乎无法量化效果如何。