第四周学习笔记

第四周学习笔记

1.CS229

课程地址

第九讲,经验风险最小化

主要内容
  • 方差-偏差权衡(variance-bias trade),欠拟合与过拟合(underfitting and overfitting)
  • 经验风险最小化(Empirical risk minimization),选择训练集上误差最小的算法
  • 样本复杂度界(the sample complexity bounds),为了达到某个特定错误界需要多少样本
值得注意的地方
1.iid

独立同分布(Identically and definitively distributed)

2.关于方差和偏差的严格定义

西瓜书中,对于回归模型的方差偏差定义为

v a r ( x ) = E D [ ( f ( x ; D ) f ¯ ( x ) ) ]

b i a s 2 ( x ) = ( f ¯ ( x ) y ) 2

其中, D 是训练集
f ¯ ( x ) = E [ f ( x ; D ) ]

分类问题中,目前(2015)仍然没有统一的方差偏差的定义

第十讲 特征选择

主要内容
  • VC维
  • 模型选择
  • 交叉验证
  • 简单保留交叉验证(simple hold out cross validation)70%-30%,
  • k折交叉验证(k fold cv)k=5,k=10,
  • 留一法(Leave one out)k=m
  • 特征选择
  • Forward Search
  • Backward Search
  • Filter feature selection(使用相关系数或互信息选择)
值得注意的地方
1.最小化经验误差的合理性

我们训练的目的是为了得到一个泛化误差小的模型。
经验误差最终一致收敛到泛化误差。
对于所有试图最小化经验误差的算法,所需的训练样本大约与假设所需的参数呈线性关系(好的参数化)

2.验证集误差

模型在验证集上的误差是对泛化误差更好的逼近

第十一讲 贝叶斯统计与正则化

主要内容
  • 贝叶斯Logistic回归,使用高斯分布作为先验分布,最终效果等价于在损失函数后增加一个正则化项,能够使得 结果更加平滑,防止过拟合。
  • 在线学习(Online learning)
  • 如何使机器学习算法应用得很好
  • 如何开始解决问题
值得注意的地方
1.如何使机器学习算法应用更好

①偏差与方差诊断
High Variance: 训练误差远小于测试误差
High Bias:两个误差都很大
②模型问题还是算法收敛问题?
比较两个模型的加权准确率 α J ( θ ) (当前目标是最大化)
case1:

α s v m > α B L R

J ( θ s v m ) > J ( θ B L R )

说明BLR优化没有搜索到最佳的收敛点,属于优化问题

case2:

α s v m > α B L R

J ( θ s v m ) < J ( θ B L R )

说明BLR没有优化问题,但是满足损失函数最小却不一定使得 J 更大,属于模型问题

③即使学习算法的效果很好,也需要进行诊断,这是为了
* 帮助更好地理解问题
* 得到更好的直觉关于一些有一点没用的东西
* 通过诊断,了解算法的哪些特点解决了哪些问题

对于流水线组合而成的模型,可以将每个阶段更换成Ground Truth来诊断哪个阶段对最终误差的影响最大。
销蚀分析(Ablative analysis)
每次消除某个步骤看看对最终性能的影响。

2.如何开始一个机器学习项目

Careful design
Build and fix

3.一些经验

三分之一的时间用于诊断
做应用时,不必研究与应用相关不大的理论

第十二讲 K-means算法

主要内容
  • 无监督学习(Unsupervised Learning)
  • K-均值算法(K-means algorithm)
  • 密度估计(Density Estimation),异常检测(Anomaly Detection)
  • 最大期望算法(EM Algorithm)
值得注意的地方
1.K-means的优化

K-means的失真函数

J ( c , μ ) = Σ i = 1 m x ( i ) μ c ( i ) 2

一定程度上衡量了分类的效果好坏,K-means运行过程中基本是在最小化这个函数,通过交替地对每个样本的 c ( i ) 与类中心 μ 的优化,相当于使用坐标上升进行优化。

2.EM算法和GDA的比较

GDA已知标签,EM算法未知标签,GDA假设标签服从伯努利分布,EM算法假设服从多项分布,GDA假设协方差矩阵相同,EM算法假设不同。EM算法将GDA算法中对标签的指示函数改成了对标签的估计。

猜你喜欢

转载自blog.csdn.net/luo3300612/article/details/82146153