【20200401】数据挖掘DM课程课业打卡四
叮嘟!这里是小啊呜的学习课程资料整理。好记性不如烂笔头,今天也是努力进步的一天。一起加油进阶吧!
一、填空题
1、x=[1,2,0,2,0],y=[2,2,2,0,2],两者之间的夹角余弦相似度为 ____。
正确答案:1/2;
2、x=[1,3,0,2],y=[2,3,2,0],两者之间的欧几里得距离为 ____。
正确答案:3
3、x=[0,1,1,0,0],y=[1,1,0,0,1],两者之间的Jaccard相似性系数为 ____。
正确答案: 1/4;
4、x=[0,1,1,0,0],y=[1,1,0,0,1],两者之间的简单匹配系数为 ____。
正确答案:2/5;
5、已知有5个训练样本,分别为
样本1,属性为:[2,0,2] 类别 0
样本2,属性为:[1,5,2] 类别 1
样本3,属性为:[3,2,3] 类别 1
样本4,属性为:[3,0,2] 类别 0
样本5,属性为:[1,0,6] 类别 0
有1个测试样本,属性为:[1,0,2]
(1)测试样本到5个训练样本(样本1、2、3、4、5)的欧氏距离依次为: ____、 ____ 、 ____、 ____ 、 ____。
正确答案:1;5;3;2;4;
(2)K=3,距离测试样本最近的k个训练样本依次为:样本 ____、样本 ____ 、样本 ____。
正确答案:1;4;3
注意点:
此处样本排列顺序不是按照样本序号大小排列,而是按照距离大小排列。
(按照距离从小到大排列)
(3)距离最近的k个训练样本类别依次为:类别 ____、类别 ____ 、类别 ____。
正确答案:0;0;1
注意点:
此处样本排列顺序不是按照样本序号大小排列,而是按照距离大小排列。
(按照距离从小到大排列)
(4)KNN算法得到的测试样本的类别为:类别 ____。
正确答案:0
利用距离加权表决判断。
关于KNN算法:
6、考试成绩定义为“优”、“良”、“中”、“差”四种,属性“良”和“中”之间的相异度为 ____。
(答案可以写成分数或小数形式,小数形式保留小数点后2位)
正确答案:1/3;
二、知识点巩固
1、简单属性的相似度&相异度
2、数据对象的相异度 : 欧氏距离
3、数据对象之间的相似度
4、简单匹配&Jaccard 系数
5、余弦相似度
6、相关性
7、距离的性质
8、关于最近邻分类器
最近邻(nearest neighbor):
和测试样例的属性相对接近的所有训练记录,称为(测试样例的)的最近邻。
利用最近邻可以对测试样例进行分类。
最近邻分类器把每个样例看做 d 维空间上的一个数据点,其中 d 是属性个数。给定一个测试样例,利用任意一种邻近性度量,计算该测试样例与训练集中其他数据点的邻近度。给定样例 z 的 k- 最近邻是指和 z 距离最近的 k 个数据点。
9、关于最近邻分类器之KNN算法
Ending!
更多课程知识学习记录随后再来吧!
就酱,嘎啦!
注:
人生在勤,不索何获。