孙仕亮模式识别与机器学习1008第二堂课

版权声明:本文为博主原创文章,转载请注明出处。 https://blog.csdn.net/huanhuan_Coder/article/details/82970495

第二堂课PPT链接: https://pan.baidu.com/s/10E4jQg_bOuUI18FgMPadJQ 提取码: qw5i
第二堂课PDF链接: https://pan.baidu.com/s/1WsoTQmpUS-aU6Mu_GBh29Q 提取码: a6xi

笔记


在这里插入图片描述

知识点整理

1、交叉验证(Cross Validation):是用来验证分类器的性能一种统计分析方法,基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(training set),另一部分做为验证集(validation set),首先用训练集对分类器进行训练,在利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标。

2、留一法(leave one out):(1)、将全部训练集 S分成 k个不相交的子集,假设 S中的训练样例个数为 m,那么每一个子 集有 m k \frac{m}{k} 个训练样例,,相应的子集称作{ s 1 , s 2 , . . . . . . s k s_1, s_2, ......s_k }。(2)、每次从分好的子集中里面,拿出一个作为测试集,其它k-1个作为训练集。(3)、根据训练训练出模型或者假设函数。(4)、把这个模型放到测试集上,得到分类率。(5)、计算k次求得的分类率的平均值,作为该模型或者假设函数的真实分类率。
  这个方法充分利用了所有样本。但计算比较繁琐,需要训练k次,测试k次。留一法就是每次只留下一个样本做测试集,其它样本做训练集,如果有k个样本,则需要训练k次,测试k次。

3、维数灾难:https://blog.csdn.net/zbc1090549839/article/details/38929215博主写的简单明了。

4、决策论:如何做决策(1)最小化错误率。(不考虑代价)(2)最小化期望损失。

5、正态分布:公式 f ( x ) = 1 ( 2 π ) σ e x p ( ( x μ ) 2 2 σ 2 ) f(x)=\frac{1}{\sqrt{(2\pi)}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2})
中心极限定理:设随机变量序列 { X i } {\{X_i\}} 相互独立,并且具有相同的期望和方差,即 E ( X i ) = μ , D ( X i ) = σ 2 E(X_i)=\mu,D(X_i)=\sigma^2 ,令 Y n = X 1 + . . . + X n Y_n=X_1+...+X_n Z n = Y n E ( Y n ) D ( Y n ) = Y n n μ n μ Z_n=\frac{Y_n-E(Y_n)}{\sqrt{D(Y_n)}}=\frac{Y_n-n\mu}{n\mu} ,则 Z n N ( 0 , 1 ) Z_n\rightarrow{N(0,1)} ,由此,我们可以根据中心极限定理来近似得到正态分布。
最大熵模型:https://blog.csdn.net/szq34_2008/article/details/79186664 我jio得还不错~

猜你喜欢

转载自blog.csdn.net/huanhuan_Coder/article/details/82970495
今日推荐