班课2

1. classification

即根据我们观察到的feature分类，核心是找到中间的boundary，大于该值的一类，小于该值的分到另一类（ax1+bx2+c=0）

为了避免公式过于复杂，定义weight vector, W^T=[a, b], X^T=[x1, x2]，故而得到新的表达式X^Tw=-c=t(w, t的确立如下)

w的确认：取两边点的平均中心点分别设为p、n, w=p-n (w为一个法向量的概念)

将w代入新的表达式中，又因为已知0.5(p+n)在boundary上，即将其代入现有表达式，求出t

2. generative algorithm与上面方法不同，它对几种class进行分析总结，判断新进来的点更符合哪部分

3. batch learning指所有training data从一开始就有，online learning即可以逐步补充数据

w为固定值则为parametric，否则为non-parametric

4. cross-validation从训练集中分出一些做测试集

holdout method：直接取出来一部分数据做测试集

LOOCV：用n-1个训练，1个测试，循环n次

K-fold Cross Validation：分成K份，一份份单独做测试集

5. 数据类型分为numerical以及categorical，前者数字后者类别

也可按照如下进行分类：

irrelevant：如名字或编号，与本身无关

nominal：数字类型的离散值但是不能不同数字之间没有关系，如1代表狗2代表猫，1 2之间没有关系

interval：茶汁可以代表距离

ordinary：有序的，如学生成绩

count，binary。time

6. evaluation matrics

前面的True/False代表预测是否正确，后面的Positive/negative代表预测结果

7. TPR可以用于当positive与negative数量悬殊很大的情况

8. AUC-ROC曲线中，好的模型AUC趋近于1，坏的趋近于0，AUC=0.5意味着没有分类

9. missing value的解决：

a) 直接删除；数据多可行，少不可行

b) 添加平均值或中位数，可能增加错误率，但是因为没有删除，比a更适合数据少的情况

c)把missing value归为新的类型，不会减少数据，优于b

d)写一个算法预测missing value，可被喻为无偏估计，可能会导致预测数据与其他数据有过强的correlation

e)算法自身支持missing value的存在

10. nearest neighbor基于两个点距离越近，value越相似，有关distance见前面，其中0norm为计算不同value的数量

11. Hamming distance适用于value为Boolean时

12. distance metric用于指导自己定义距离

13. 所有点中的中值点距离其他所有点的距离平方和最小(squared Euclidean distance), 存在geometric median可以使该点距离其他点的距离最小，通过这个我们可以得到新的分类方法，即每加进来一个新的点就它与其他点的值进行比较，离哪个更近就归为哪类

14. KNN即找到K个最近邻居，将均值赋给新进来的值，不需要training。为了防止feature数量级不同，通常需要进行normalization：(value-min)/(max-min)，使其压缩到0 1之间

15. NN即KNN中K=1的情况，但是attribute不可以超过20个（可以设置weight，赋予attribute不同重要性，如weight设置为距离平方的倒数）

16. inductive bias: 我们在算法中常会默认一些情况作为试验的前提，这些前提中不正确的地方即为inductive bias

17. 1NN variance很高但是bias很低，随着不断增长bias不断增高variance不断降低

18. LOOCV用于解决KNN中出现的问题，对于每一个点，分别用其他的点求出这个点应该归属的分类，根据判断是否正确判断这个点是否需要删除

19. curse of dimensionality: 当维度升高，每个区域可以拥有的数据量下降，从而导致不能用距离表示两个点之间的关系，这就是为什么attribute过大时不能使用KNN，一定使用可以weight不同的维度