一、What is Machine Learning

自己刚刚考完研，看来看去不知道学什么看什么，刷微博看到现在发展正好的机器学习、深度学习等，于是鼓起信心和好奇心开始尝试学习一下机器学习的相关入门知识。接着便开始找资料，这里开始学习Stanford大学Andrew Ng老师的机器学习课程。

机器学习其实存在于我们生活的很多方面，比如现在移动设备上相册的自动分类功能等，
这里写图片描述

比如：
这里写图片描述

机器学习是研究计算机怎么样通过模拟人类的学习行为和活动模式，来获取新的知识和能力，从而重新组织现有的知识结构使之性能不断的优化。

下面是关于机器学习两个相关的定义：
这里写图片描述

我们看一下Tom Mitchell给出的定义：他说一个程序被认为能从经验习E中学习i，来解决任务T，达到性能度量值P，当且仅当有了经验E之后，经过P评判，程序在处理T的性能有所提升。

机器学习的分类如下：
这里写图片描述

主要分为有监督的学习和无监督的学习，此外还有例如加强学习、推介系统等相关的机器学习方面的概念。

二、Supervised Learning

所谓有监督的学习简单的就是教给计算机如何学习、如何完成一些任务，而对应的无监督的学习就是让计算机自己学习。

为了直观，这里用一个实际的例子来看：
这里写图片描述

坐标图的横坐标是房屋大小，纵坐标是房屋的价格，图中的点就是所搜集的相关的数据，那么如果现在我们要出售750平米的房子时，我们如何根据现有的数据来预测一个合适的价格，就是我们急需解决的问题。

也就是说我们如何直观的画一条线，可能是曲线，也可能是直线，来更好的拟合现有的数据。当我们画一条直线时，得到的价格接近150，而当我们画曲线时，发现拟合效果更好，这时预测价格接近200。因此如何选择拟合的线，便是我们学习的一个任务。

那么有监督的学习就是给我们的学习算法一个有很多“正确结果”组成的数据集，通过学习来获取更多的正确答案。术语讲叫回归问题：就是试着推测出一个连续的结果。

再看一个例子。它是通过肿瘤的大小来判断肿瘤是良性的还是恶性的，
这里写图片描述

如图所示，横坐标表示肿瘤的大小，纵坐标表示是否为良性，1表示良性，0表示恶性。图中给出了十个真实数据，并且说明了肿瘤的情况，那么当我们有一个数据显示大小是如箭头所指时，我们就可以估算出是否是恶性的概率。当然我们也可以有不同那个的分类标准，用不同的数字表示不同的类型。

当影响因素多于一个时，我们也可以用另外一种方式描绘数据，如下所示：
这里写图片描述
这里加了一个属性：年龄，在这个二维图中，当我们的数据既包括肿瘤大小也含患者的年龄时，我们也可以根据现有的数据判断患病的概率，此外还可以包含细胞的形状、大小等等的不同特征的数据来丰富数据集，使得预测结果更加的接近真实情况。

因此我们可以知道，有监督的学习基本思想就是，我们的数据集中的每个样本都有相应的“正确答案“，我们再根据这些样本做出预测。此外还提到了回归问题，即通过回归推出一个连续的输出。

三、Unsupervised Learning

下面我们来通过对比来看下无监督的学习，
这里写图片描述

上面是有监督学习的一个例子，在第一副图中我们已经标出了是良性还是恶性，所以对于监督学习里的每条数据，我们已经清楚的知道训练集所对应的正确答案。

而下面的无监督的学习的例子的数据集中，仅有8个数据，他们没有任何的标签或者说是没有相同的标签，我们得到的就是一个数据集，没有告知每个数据点是什么，不知道如何处理，我们要做的就是从这些数据集中找出某种结构。而无监督的学习就可以将其分为两类，这是一个，那是另一个，二者不同，这也叫做聚类。

此外比如在新闻行业、基因行业等，无监督学习也有广泛的应用。
这里写图片描述

Stanford机器学习-Introduction

一、What is Machine Learning

二、Supervised Learning

三、Unsupervised Learning

猜你喜欢