数据挖掘1110

1.k折:k=3时,数据分成3份。第一轮2/3training,1/3调参。validation是个调参的过程

2.控制模型复杂程度:剪枝。
评估参数:泛化误差:①bias,测试集上training,看有多少数据误判了;
②variance:模型复杂度,方法:叶子结点加0.5惩罚;传输过去的代码量
在两者之间找到一个平衡。

3.testing,混淆矩阵
病理上,要加权重。

4.testing的准确率,类的分布,误分类的代价…

5.ROC曲线:用于二分类
tpr=tp/(tp+fn)(其实是recall),作为y轴,tpr越高越好
fpr=fp/(fp+tn)作为x轴,fpr越低越好
最理想的点在左上角(perfect classification)

为什么会是曲线?因为判断正负例有一个指标,比如高于某个指标机器判断就是正例,低于某指标就是负例。指标是可以变化的,根据指标的变化可以以tpr为y轴,fpr为x轴绘制曲线。右上角指标最低。

6.auc曲线

7.决策树的阈值:如果按投票,阈值是0.5;
分布不均匀时,可以调整阈值。

8.test of significance:
回顾:置信区间
置信水平+显著水平=1
均值±1.96标准差,属于一个比较可信的区间。
t检验适合样本数量较少的情况。
正态分布适合样本数量较大的情况

比较两个模型:
d=e1-e2(e为错误率)
区间包含0

做k折,求每一组的d

9.决策树总结
qunlan:分裂:Multiway
cart和sklearn都是二叉树。sklearn找信息增益最大的点,missing value不处理。
id3不剪枝,异常点不敏感,属性支持多次使用。

10.预剪枝:预先设定超过某个指标就结束;后剪枝:训练完之后,再看超过某个指标结束。

11.贝叶斯分类方法
联合概率:p(x,y)=p(x)p(y|x)=p(y)p(x|y)
p(y|x)/p(y)>1

分类判断:p(x1x2…xn|y1)p(y1)和p(x1x2…xn|y2)p(y2)的大小,判断是属于y1类还是y2类。(实际上公式都要除p(x1x2…xn))

12.拉普拉斯平滑:某一项在条件下样本数为0的情况,这种情况下,每项的样本+1。

猜你喜欢

转载自blog.csdn.net/ChaoyingL/article/details/121248113