本人目前在学习李航博士的《统计机器学习》这本书,这本书是机器学习领域的权威书籍,对学习机器学习的我有很大的作用,也有很大的帮助,本人会不定期更新文章和代码知识点(取决于个人理解的快慢)。
第一篇博客是《统计机器学习》的第一章,也是知识点很多,概念很多的一章,这一章是其余几章的前提,有些概念性的东西,第一章介绍的很清楚,在此做一个总结。把我认为重要的概念和知识点罗列一下,让自己在复习贯通一下。
如果一个系统能过通过执行某个过程来提高它的性能,这就是学习。--------赫尔伯特.西蒙
1,统计机器学习:就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。(有人就要问了,机器学习和统计机器学习到底有什么区别,陈学长当初给我提过,我总结一下,统计机器学习,就是基于统计的机器学习,而机器学习是基于规则的,也就是说,统计机器学习,就是由数据得出结论调整模型,而机器学习,是人为调整模型,我可能总结的不全面,但大概就是这个意思。)。
2,统计学习的前提:统计学习关于数据数据的基本假设是同类数据(具有某种共同性质的数据)具有一定的统计规律性。(这个就好理解了,既然要运用统计学的方法,数据之间必须相似,具有共同性质)。
3,统计学习用于对数据进行预测与分析,特别是对未知新数据进行预测与分析,(总的目标是:考虑学习什么样的模型忽和如何学习模型,以使模型能够对数据准确的预测和分析,提高学习效率)。
4,统计学习由监督学习,非监督学习,半监督学习,强化学习组成。
5,统计学习方法的步骤:
1>得到一个有限的训练数据集合。
2>确定所有的模型的假设空间,即学习模型的集合。
3>确定模型选择的准则,即学习的策略。
4>实现求解最优模型的算法,即学习的算法。
5>通过学习方法选择最优模型。
(统计学习方法三要素:统计学习方法=模型+策略+算法)
6,监督学习(supervised learning): 教计算机如何去完成任务,监督学习中,对于数据集中的每个数据,都有相应的正确答案。监督学习任务是学习一个模型,使这个模型能够对给定的输入对其相应的输出做出一个很好的预测。(计算机的基本操作就是给定一个输入产生一个输出)。
7,监督学习又分为:(1)回归问题:预测一个连续的输出(有人会说回归是什么意思?为什么叫回归这个词,我查了一下,回归在数学上来说是给定一个点集,能够用一条曲线拟合)。
(2)分类问题:预测离散值输出。(例如,天气的晴与阴,是男孩还是女孩等)
8,将输入与输出所有可能的取值的集合分别称为输入空间和输入空间。
9,每个具体的输入是一个实例,通常由特征向量表示。这时,所有特征向量存在的空间称为特征空间,特征空间中的每一维对应一个特征。
10,监督学习从训练数据集合中学习模型,对测试数据进行预测。
11,联合概率分布:
12,假设空间:各种可能的函数构成的空间,在其中寻找一个最接近实际分类函数的h(x)。
13,监督学习的目的在于学习在一个由输入到输出的映射,这映射由模型来表示;学习的目的就在于找到最好的这样的模型,模型属于由输入空间到输出空间的映射的集合(假设空间),假设空间的确定意味着学习范围的确定。
14,监督学习的模型可以分为概率模型和非概率模型。
15,监督学习分为学习和预测两个过程:
16,统计学习首先要考虑的问题是学习什么样的模型,在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。
17, 统计学习的目标在于从假设空间中选取最优模型。
18,损失函数度量模型一次预测的好坏,风险函数度量平均意义下的模型预测的好坏。
19,常用的损失函数:
损失函数越小,模型就越好。
20,期望风险:
学习的目标就是选择期望风险最小的模型。
21,经验风险:
22 ,经验风险最小化和结构风险最小化
当样本容量足够大时,经验风险最小化能保证有很好的学习效果。 样本过小是,经验风险最小化的学习效果就不一定很好,有可能过拟合。
结构风险需要经验风险与模型复杂度同时小。结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测。
23, 算法:是指学习模型的具体计算方法。统计学习基于训练集,根据学习策略从假设空间中选择最优模型,最后还需要考虑用什么样的计算方法求解最优解。(这时统计学习问题归结未最优化问题)。