第二课:概率论

一、生成模型 与 判别模型的区别


判别模型 is better than 生成模型;

二、评估模型表现的指标 ROC

当数据label不平衡时,无法用“准确率”来评估模型表现,此时,可以用ROC,评估模型表现:

ROC曲线绘制步骤:分别取若干比重的data计算TPR和FPR,每个比重的data均可得到一个point,将这些point连线即为ROC曲线。
得到ROC曲线,即可根据AUC(area under curve)来评估模型表现的优劣,AUC越接近1,其表现越好,越接近0.5,表明其prediction为random 行为,表现很差。值得注意的是:当AUC接近0时,也可以说模型表现很好,因为只要把prediction的label对调,其准确率就会很高。

除用ROC评估模型表现外,也可以用recall-precision 曲线来评估模型表现,同样的,曲线面积越大,说明模型表现越好,如下图所示:

三、离散变量和连续变量 P(x)=0是不是一定不可能发生?

对于“离散变量”,P(x)=0是一定不可能发生的;
但是,对于“连续变量”,P(x)=0是可能发生的;

四、COV 和 COR 都是线性相关的 表征量


五、蒙特卡罗 方法

基本思想:当所求解问题是某种随机事件出现的概率,或者是某个随机变量的期望值时,通过某种“实验”的方法,以这种事件出现的频率估计这一随机事件的概率,或者得到这个随机变量的某些数字特征,并将其作为问题的解。

六、信息论


  • KL DIVERGENCE
  • 互信息
    互信息可以表征两个特征的相关性,当互信息=0,说明两个特征互相独立。

猜你喜欢

转载自blog.csdn.net/u014765410/article/details/83547862