统计学习、机器学习的基础知识汇总

版权声明:版权归本作者所有,如需转载请务必注明出处及作者 https://blog.csdn.net/qq_35654046/article/details/84585886
  • 数学概念

偏序关系

  • 互信息

I(X,Y)=P(X,Y)*log_{2}\frac{P(X,Y)}{P(X)*P(Y)}

  • F1值,精确率,召回率

TP(True Positive) -- 将正类预测为正类

FN(False Negative) --将负类预测为负类

FP(False Positive) --将负类预测为正类

TN(True Negative) --将正类预测为负类

精确率(我预测了100个样本是对的,但实际上只有99个是真的对的,R=99%):

Accuracy= \frac{TP}{TP+FP}

召回率(一共有100个样本是对的,我预测出了99个,A=99%):

Recall = \frac{TP}{TP+FN}

F1值:

F_{1}=\frac{2TP}{2TP+FP+FN}

  • 输入空间,特征空间,输出空间,假设空间

  • 分类问题,标注问题,回归问题

  • 条件概率,联合概率分布

  • 生成模型,判别模型

生成模型:能够学到联合概率分布P(X,Y)

例如:朴素贝叶斯和隐马尔可夫模型

判别模型:只能学到条件概率分布P(Y|X)或决策函数f(X)

例如:k近邻,SVM,决策树

  • 正则化,先验概率,归纳偏置

正则化,先验概率,归纳偏置感觉上是从不同的角度描述同一件事情。

  • 期望损失(期望风险),经验损失(经验风险),结构损失(结构风险)

期望损失(期望风险):是随机变量损失函数的期望值/关于模型联合分布的期望损失。

经验损失(经验风险):根据样本数据集对期望损失的估计。

结构损失(结构风险):结构损失是经验损失上加上正则化项。

极大似然估计

  • 过拟合

所选模型的复杂度比真模型高,对已知数据预测很好,对未知数据预测很差。

  • 正则化与交叉验证

  • 模型评估

  • 泛化能力

  • 什么是机器学习

对于某项任务T和性能指标P,计算机程序可以通过经验E,在任务T上提高性能P。

  • 归纳偏置

当学习器去预测其未遇到过的输入的结果时,会做一些假设(Mitchell, 1980)。而学习算法中归纳偏置则是这些假设的集合。

算法偏置越强,模型归纳能力越强,没有偏置的算法是没有泛化能力的。

参考资料

机器学习 - Mitchell

猜你喜欢

转载自blog.csdn.net/qq_35654046/article/details/84585886
今日推荐