【机器学习】吴(一)

什么是机器学习?

①Two definitions of Machine Learning are offered. Arthur Samuel described it as: "the field of study that gives computers the ability to learn without being explicitly programmed." This is an older, informal definition.

②Tom Mitchell provides a more modern definition: "A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E."

任何机器学习问题可以分为两大类:监督学习和无监督学习

什么是监督学习?

在监督学习中,我们给出了一个数据集,并且已经知道我们正确的输出应该是什么样子,认为输入和输出之间存在关系。

监督学习问题被归类为“回归”和“分类”问题。在回归问题中,我们试图在连续输出中预测结果,这意味着我们试图将输入变量映射到一些连续函数。在分类问题中,我们试图在离散输出中预测结果。换句话说,我们试图把输入变量映射成离散的类别。

(a)回归-给定一个人的照片,我们必须根据给定的图片来预测他们的年龄。

1、找到代价函数:是用回归找到最佳答案的一个主要方法

例如下面这个线性回归:


扫描二维码关注公众号,回复: 1985839 查看本文章

为了找到J的使J为最小值的(θ的值),一般会使用梯度下降算法

2、梯度下降算法:


3、多特征线性回归


4、多特征线性回归的梯度下降算法


①特征缩放:

特征值之间的取值范围尽可能得相似,区别过大会导致求最优值时变得复杂,可以才用缩放的方法去缩放特征值使他们的范围足够接近,且可以缩放到-n~+n

②选择适合的特征


5、正规方程


①正规方程的不可逆性

   a.当两个特征存在密切的相关例如线性相关时,正规方程右边存在无意义或者求不出θ

    b.当特征值比较多而样本比较少时

6、正规方程和梯度下降算法都是用来求θ的

二者区别即使用情况,当特征值的数量n小于10000时采用正规方程,因为正规方程更加方便快捷

但是当n大于10000时,这一项比较难以得出,时间复杂度太高,所以需要选择使用梯度下降算法




(b)分类-对于一个肿瘤患者,我们必须预测肿瘤是恶性还是良性。

什么是无监督学习?

我们不知道问题的模样,但是算法会自动抽出数据中的结果集,聚类或非聚类

(a)聚类分析:以100万不同的收集和寻找基因,对这些基因的方式自动组组,是由不同的“类似或相关的变量,如lifespan,位置,角色,和操作系统。

(b)非聚类算法:鸡尾酒会”,让你在寻找混沌结构的环境。(即个人的声音识别声音和音乐从网格剖分(鸡尾酒会)。


猜你喜欢

转载自blog.csdn.net/toby1123yjh/article/details/80503562
今日推荐