“跟着吴恩达老师入门机器学习”学习笔记（二）

机器学习概述

一什么是机器学习？

　　机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

　　它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。（百度百科）

二按学习形式分类

　　监督学习（supervised learning）：即在机械学习过程中提供对错指示。一般实在是数据组中包含最终结果（0，1）。通过算法让机器自我减少误差。这一类学习主要应用于分类和预测 (regression & classify)。监督学习从给定的训练数据集中学习出一个函数，当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出，也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督学习算法包括线性回归和统计分类。

　　非监督学习（unsupervised learning）：和监督学习不同，在给定的数据集中没有对错指示或者特征指示，让算法给出数据集的一定的结构。常见的算法是聚类。

三举例论证

　　1 回归问题

正如坐标系中展示的一样，我们事先通过调查研究找到了某地的房价和房子占地面积的数据集。这是假设你有一栋750平米的房子要出售，那么我该定什么样的价位合适呢？这时我们要通过拟合一条线（或直线或曲线）尽量贴合这些数据点，这样就能找到对应房子的大小的房价。这就是典型的线性回归模型。

　　2 分类问题

正如图中所示的关于肿瘤大小和是否患恶性的例子，横坐标是肿瘤大小，纵轴是是否为恶性。给出的数据集包含有肿瘤的大小和患病情况，现在给出某个肿瘤的大小，想知道是否为患恶性肿瘤。这就是分类问题，让机器预测出一个离散值的输出。

当然机器学习问题不止这些。我们将在后续的学习笔记上继续了解。

“跟着吴恩达老师入门机器学习”学习笔记（二）

猜你喜欢