机器学习与数据挖掘 第二讲 机器学习分类与可能性

版权声明:该文章来自leeningzzu https://blog.csdn.net/leeningzzu/article/details/88071371

第二讲 机器学习分类与可能性

分类

目前多按照数据标记分类

  • 输出空间
  1. 二元分类
  2. 多元分类 (离散为分类)
  3. 回归分析 (连续为回归)
  4. 结构化学习
  • 数据标记
  1. 监督
  2. 非监督
  3. 半监督
  4. 增强学习 (反馈是关键)
  • 目标函数
  1. Batch 填鸭式
  2. online 老师教学
  3. active 主动问题

机器学习的可能性

重点关注预测未知数据的能力,即泛化能力的本质

Hoeffding‘s inequality P [ ν μ > ϵ ] 2 e x p ( 2 ϵ 2 N ) P[|\nu-\mu|>\epsilon]\leq2exp({-2}\epsilon^{2}N)
当抽样样本 N N 足够大或者容忍限度 ϵ \epsilon 宽松时, ν = μ \nu=\mu 在概率上几乎正确(probably approximately correct,PAC).其背后的实质是大数定律,所以当样本足够大时可从样本数据推算全局。
通过对数据集的训练,我们默认从假设集合中挑选表现最好的假设 g = f \Rightarrow g=f ,但表现好一定具有很好的泛化能力么?这么选择是否有依据?毕竟存在表现佳但泛化能力差的可能。
当数据集足够大时, E i n E_{in} E o u t E_{out} 表现差别大的概率很小 P [ E i n E o u t > ϵ ] 2 M e 2 ϵ 2 N P[|E_{in}-E_{out}|>\epsilon]\leq2Me^{{-2}\epsilon^{2}N} .所以每次选择表现最好的假设其泛化能力越强的可能性高,选择具有合理性。

从统计学随机抽样代表性角度类比:
在大的样本空间中随机抽样,可能存在样本对总体代表性不佳的可能,但在大数定律下,该事件属于小概率事件,即选择到代表性差的样本可行性低。
所以当 N N 足够大时,即便进行一次随机抽样,我们认为所得样本可较好的代表总体特征(小概率事件不可能定理)。

猜你喜欢

转载自blog.csdn.net/leeningzzu/article/details/88071371