数据挖掘1110

1.k折：k=3时，数据分成3份。第一轮2/3training，1/3调参。validation是个调参的过程

2.控制模型复杂程度：剪枝。
评估参数：泛化误差：①bias，测试集上training，看有多少数据误判了；
②variance：模型复杂度，方法：叶子结点加0.5惩罚；传输过去的代码量
在两者之间找到一个平衡。

3.testing，混淆矩阵
病理上，要加权重。

4.testing的准确率，类的分布，误分类的代价…

5.ROC曲线：用于二分类
tpr=tp/（tp+fn）（其实是recall），作为y轴，tpr越高越好
fpr=fp/（fp+tn）作为x轴，fpr越低越好
最理想的点在左上角（perfect classification）

为什么会是曲线？因为判断正负例有一个指标，比如高于某个指标机器判断就是正例，低于某指标就是负例。指标是可以变化的，根据指标的变化可以以tpr为y轴，fpr为x轴绘制曲线。右上角指标最低。

6.auc曲线

7.决策树的阈值：如果按投票，阈值是0.5；
分布不均匀时，可以调整阈值。

8.test of significance：
回顾：置信区间
置信水平+显著水平=1
均值±1.96标准差，属于一个比较可信的区间。
t检验适合样本数量较少的情况。
正态分布适合样本数量较大的情况

比较两个模型：
d=e1-e2(e为错误率)
区间包含0

做k折，求每一组的d

9.决策树总结
qunlan：分裂：Multiway
cart和sklearn都是二叉树。sklearn找信息增益最大的点，missing value不处理。
id3不剪枝，异常点不敏感，属性支持多次使用。

10.预剪枝：预先设定超过某个指标就结束；后剪枝：训练完之后，再看超过某个指标结束。

11.贝叶斯分类方法
联合概率：p（x,y）=p(x)p(y|x)=p(y)p(x|y)
p（y|x）/p(y)＞1

分类判断：p(x1x2…xn|y1)p(y1)和p(x1x2…xn|y2)p(y2)的大小，判断是属于y1类还是y2类。（实际上公式都要除p（x1x2…xn））

12.拉普拉斯平滑：某一项在条件下样本数为0的情况，这种情况下，每项的样本+1。