Stanford机器学习-Introduction

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Forlogen/article/details/54601365

一、What is Machine Learning

自己刚刚考完研,看来看去不知道学什么看什么,刷微博看到现在发展正好的机器学习、深度学习等,于是鼓起信心和好奇心开始尝试学习一下机器学习的相关入门知识。接着便开始找资料,这里开始学习Stanford大学Andrew Ng老师的机器学习课程。

机器学习其实存在于我们生活的很多方面,比如现在移动设备上相册的自动分类功能等,
这里写图片描述

比如:
这里写图片描述

机器学习是研究计算机怎么样通过模拟人类的学习行为和活动模式,来获取新的知识和能力,从而重新组织现有的知识结构使之性能不断的优化。

下面是关于机器学习两个相关的定义:
这里写图片描述

我们看一下Tom Mitchell给出的定义:他说一个程序被认为能从经验 习E中学习i,来解决任务T,达到性能度量值P,当且仅当有了经验E之后,经过P评判,程序在处理T的性能有所提升。

机器学习的分类如下:
这里写图片描述

主要分为有监督的学习和无监督的学习,此外还有例如加强学习、推介系统等相关的机器学习方面的概念。

二、Supervised Learning

所谓有监督的学习简单的就是教给计算机如何学习、如何完成一些任务,而对应的无监督的学习就是让计算机自己学习。

为了直观,这里用一个实际的例子来看:
这里写图片描述

坐标图的横坐标是房屋大小,纵坐标是房屋的价格,图中的点就是所搜集的相关的数据,那么如果现在我们要出售750平米的房子时,我们如何根据现有的数据来预测一个合适的价格,就是我们急需解决的问题。

也就是说我们如何直观的画一条线,可能是曲线,也可能是直线,来更好的拟合现有的数据。当我们画一条直线时,得到的价格接近150,而当我们画曲线时,发现拟合效果更好,这时预测价格接近200。因此如何选择拟合的线,便是我们学习的一个任务。

那么有监督的学习就是给我们的学习算法一个有很多“正确结果”组成的数据集,通过学习来获取更多的正确答案。术语讲叫回归问题:就是试着推测出一个连续的结果。

再看一个例子。它是通过肿瘤的大小来判断肿瘤是良性的还是恶性的,
这里写图片描述

如图所示,横坐标表示肿瘤的大小,纵坐标表示是否为良性,1表示良性,0表示恶性。图中给出了十个真实数据,并且说明了肿瘤的情况,那么当我们有一个数据显示大小是如箭头所指时,我们就可以估算出是否是恶性的概率。当然我们也可以有不同那个的分类标准,用不同的数字表示不同的类型。

当影响因素多于一个时,我们也可以用另外一种方式描绘数据,如下所示:
这里写图片描述
这里加了一个属性:年龄,在这个二维图中,当我们的数据既包括肿瘤大小也含患者的年龄时,我们也可以根据现有的数据判断患病的概率,此外还可以包含细胞的形状、大小等等的不同特征的数据来丰富数据集,使得预测结果更加的接近真实情况。

因此我们可以知道,有监督的学习基本思想就是,我们的数据集中的每个样本都有相应的“正确答案“,我们再根据这些样本做出预测。此外还提到了回归问题,即通过回归推出一个连续的输出。

三、Unsupervised Learning

下面我们来通过对比来看下无监督的学习,
这里写图片描述
这里写图片描述

上面是有监督学习的一个例子,在第一副图中我们已经标出了是良性还是恶性,所以对于监督学习里的每条数据,我们已经清楚的知道训练集所对应的正确答案。

而下面的无监督的学习的例子的数据集中,仅有8个数据,他们没有任何的标签或者说是没有相同的标签,我们得到的就是一个数据集,没有告知每个数据点是什么,不知道如何处理,我们要做的就是从这些数据集中找出某种结构。而无监督的学习就可以将其分为两类,这是一个,那是另一个,二者不同,这也叫做聚类。

此外比如在新闻行业、基因行业等,无监督学习也有广泛的应用。
这里写图片描述
这里写图片描述
这里写图片描述

猜你喜欢

转载自blog.csdn.net/Forlogen/article/details/54601365