【科普周】机器学习扫盲篇（一）

欢迎关注哈希大数据微信公众号《哈希大数据》

机器学习的概念

机器学习（machine learning），从字面上来看可分为机器和学习两部分，其中机器是指电脑、pad、手机等一切可以处理数据的电子设备（计算机）；学习是指机器为获得解决问题能力所做出的行为（学习是智能生物的基本特征之一），即设计一些让计算机可以自动“学习”的算法，以便从输入（输出）的数据中习得经验获取规律，进一步将其转换成知识，利用知识而完成特定的预测和判断任务。

在这里机器是学习的承担者，而学习是机器执行的具体行为。机器学习的目的就是让机器可以像人类一样通过不断的学习而具备解决问题的能力，这种能力可以体现在算法设计和数据模型构建中。可完成的任务包括分类、聚类、回归、降维、推荐、密度估计等新的输出。

机器学习的分类

对于机器而言，无论文字、图片、音频、视频等都是一种数据，根据给定数据集的不同，机器学习可以分为有监督学习、无监督学习和强化学习。

有监督的学习是指，在训练机器学习的过程中，给定机器完整已知数据的输入（数据特征）和输出结果（数据回归值或类别），机器学习后可以对新的输入特征进行预测得到新的输出结果。

给大家举个例子：

以我们之前做的波士顿房价可视化回归预测来看，如果告诉机器一栋房子所在地区的住宅地比例、环保的指标、自住的比例、便利的指数、以及不动产税率等指标，以及不同指标下房屋的价格，这样机器就能学习这些指标的特点和房价的关系，而给出当前指标下具体的房屋价格。但是这个价格准确率的问题要看机器通过不同模型和算法学习效果如何。（之前已尝试过线性回归模型、决策树模型等，不同模型对应的预测结果完全不同的，这也表示出了机器学习程度的不同）。

以机器学习实现鸢尾花的分类来看，我们只需给机器提供鸢尾花萼片和花瓣的长度和宽度数据，以及花的类别，机器便可以通过学习KNN算法、逻辑回归算法、决策树算法等，来判断新生长出的鸢尾花究竟是属于山鸢尾、变色鸢尾还是维尼亚鸢尾。这些都是有监督的机器学习方式。

无监督的机器学习，是仅提供输入特征即鸢尾花萼片和花瓣的长度和宽度数据，机器在学习过程中并不知道其结果是否正确。但是通过聚类、神经网络等算法它会自动从这些特征中找出其潜在类别规则，而将鸢尾花分为三大类。

强化学习 是基于监督和无监督学习两者之间，其中机器在学习阶段和有监督学习是一样的，数据特征和数据结果会完整输入提供给数据。但等到测试阶段，只是会告诉机器这次测试的结果是否达到了预期，也就是预测的房子价格和实际价格是否是差很多。只有预测差值符合要求后才会停止学习，否则机器将在学习中动态调整预测算法参数，来达到预期。

一些总结

总而言之机器学习要实现从规律到知识的提炼，进而得出输入特征和目标之间的映射关系（由模型算法定义的算法空间），这种映射关系就是计算机通过学习大量实例数据得出的。因此机器学习虽然包括数据和算法，但最主要的部分还是数据，数据是机器学习成为可能的关键因素。在使用机器学习中也需要注意：

首先需要了解机器学习只能在与训练数据同分布的数据上有效，其并非适用于所有的数据集，因此需要对训练数据和实际数据之间统计上的不对称性保持足够的警觉，同时需要保持模型不断地被训练让它不落伍。

其次，如果机器学习算法出现偏差，在学习过程中也可能会持续的收集新的数据来不断强化这一偏差。要时刻保持怀疑的态度来使用机器学习算法，并在应用的过程中进行严格的检查。

最终，我们需要明白无论何种学习方式都不是万能的，需要结合现实应用场景在一定的范围内使用机器学习技术，而且可能更多的需要在数据清洗和变换上花进行不断尝试，以便让机器可以更好的从数据中学习。