班课2

1. classification

即根据我们观察到的feature分类,核心是找到中间的boundary,大于该值的一类,小于该值的分到另一类(ax1+bx2+c=0)

为了避免公式过于复杂,定义weight vector, WT=[a, b], XT=[x1, x2],故而得到新的表达式XTw=-c=t(w, t的确立如下)

w的确认:取两边点的平均中心点分别设为p、n, w=p-n (w为一个法向量的概念)

将w代入新的表达式中,又因为已知0.5(p+n)在boundary上,即将其代入现有表达式,求出t

2. generative algorithm与上面方法不同,它对几种class进行分析总结,判断新进来的点更符合哪部分

3. batch learning指所有training data从一开始就有,online learning即可以逐步补充数据

w为固定值则为parametric,否则为non-parametric

4. cross-validation从训练集中分出一些做测试集

holdout method:直接取出来一部分数据做测试集

LOOCV:用n-1个训练,1个测试,循环n次

K-fold Cross Validation:分成K份,一份份单独做测试集 

5. 数据类型分为numerical以及categorical,前者数字后者类别

也可按照如下进行分类:

irrelevant:如名字或编号,与本身无关

nominal:数字类型的离散值但是不能不同数字之间没有关系,如1代表狗2代表猫,1  2之间没有关系

interval:茶汁可以代表距离

ordinary:有序的,如学生成绩

count,binary。time

6. evaluation matrics

前面的True/False代表预测是否正确,后面的Positive/negative代表预测结果

7. TPR可以用于当positive与negative数量悬殊很大的情况

8. AUC-ROC曲线中,好的模型AUC趋近于1,坏的趋近于0,AUC=0.5意味着没有分类

9. missing value的解决:

a) 直接删除;数据多可行,少不可行

b) 添加平均值或中位数,可能增加错误率,但是因为没有删除,比a更适合数据少的情况

c)把missing value归为新的类型,不会减少数据,优于b

d)写一个算法预测missing value,可被喻为无偏估计,可能会导致预测数据与其他数据有过强的correlation

e)算法自身支持missing value的存在

10. nearest neighbor基于两个点距离越近,value越相似,有关distance见前面,其中0norm为计算不同value的数量

11. Hamming distance适用于value为Boolean时

12. distance metric用于指导自己定义距离

13. 所有点中的中值点距离其他所有点的距离平方和最小(squared Euclidean distance), 存在geometric median可以使该点距离其他点的距离最小,通过这个我们可以得到新的分类方法,即每加进来一个新的点就它与其他点的值进行比较,离哪个更近就归为哪类

14. KNN即找到K个最近邻居,将均值赋给新进来的值,不需要training。为了防止feature数量级不同,通常需要进行normalization:(value-min)/(max-min),使其压缩到0 1之间

15. NN即KNN中K=1的情况,但是attribute不可以超过20个(可以设置weight,赋予attribute不同重要性,如weight设置为距离平方的倒数)

16. inductive bias: 我们在算法中常会默认一些情况作为试验的前提,这些前提中不正确的地方即为inductive bias

17. 1NN variance很高但是bias很低,随着不断增长bias不断增高variance不断降低

18. LOOCV用于解决KNN中出现的问题,对于每一个点,分别用其他的点求出这个点应该归属的分类,根据判断是否正确判断这个点是否需要删除

19. curse of dimensionality: 当维度升高,每个区域可以拥有的数据量下降,从而导致不能用距离表示两个点之间的关系,这就是为什么attribute过大时不能使用KNN,一定使用可以weight不同的维度

猜你喜欢

转载自www.cnblogs.com/eleni/p/12401521.html
2-2