【20200401】数据挖掘DM课程课业打卡四


叮嘟!这里是小啊呜的学习课程资料整理。好记性不如烂笔头,今天也是努力进步的一天。一起加油进阶吧!
在这里插入图片描述

一、填空题

1、x=[1,2,0,2,0],y=[2,2,2,0,2],两者之间的夹角余弦相似度为 ____。

正确答案:1/2; 

在这里插入图片描述

2、x=[1,3,0,2],y=[2,3,2,0],两者之间的欧几里得距离为 ____。

正确答案:3

在这里插入图片描述
3、x=[0,1,1,0,0],y=[1,1,0,0,1],两者之间的Jaccard相似性系数为 ____。

正确答案: 1/4;

在这里插入图片描述
在这里插入图片描述
4、x=[0,1,1,0,0],y=[1,1,0,0,1],两者之间的简单匹配系数为 ____。

正确答案:2/5;

在这里插入图片描述
在这里插入图片描述
5、已知有5个训练样本,分别为

样本1,属性为:[2,0,2]  类别 0
样本2,属性为:[1,5,2]  类别 1
样本3,属性为:[3,2,3]   类别 1
样本4,属性为:[3,0,2]   类别  0
样本5,属性为:[1,0,6]   类别 0

有1个测试样本,属性为:[1,0,2]

(1)测试样本到5个训练样本(样本1、2、3、4、5)的欧氏距离依次为: ____、 ____ 、 ____、 ____ 、 ____。

正确答案:1;5;3;2;4;

(2)K=3,距离测试样本最近的k个训练样本依次为:样本 ____、样本 ____ 、样本 ____。

正确答案:1;4;3

注意点:

此处样本排列顺序不是按照样本序号大小排列,而是按照距离大小排列。
(按照距离从小到大排列)

(3)距离最近的k个训练样本类别依次为:类别 ____、类别 ____ 、类别 ____。

正确答案:0;0;1

注意点:

此处样本排列顺序不是按照样本序号大小排列,而是按照距离大小排列。
(按照距离从小到大排列)

(4)KNN算法得到的测试样本的类别为:类别 ____。

正确答案:0                          
利用距离加权表决判断。

关于KNN算法:
在这里插入图片描述

6、考试成绩定义为“优”、“良”、“中”、“差”四种,属性“良”和“中”之间的相异度为 ____。
(答案可以写成分数或小数形式,小数形式保留小数点后2位)

正确答案:1/3;

在这里插入图片描述

二、知识点巩固

1、简单属性的相似度&相异度

在这里插入图片描述

2、数据对象的相异度 : 欧氏距离

在这里插入图片描述

3、数据对象之间的相似度

在这里插入图片描述

4、简单匹配&Jaccard 系数

在这里插入图片描述

5、余弦相似度

在这里插入图片描述

6、相关性

在这里插入图片描述

7、距离的性质

在这里插入图片描述

8、关于最近邻分类器

最近邻(nearest neighbor):
和测试样例的属性相对接近的所有训练记录,称为(测试样例的)的最近邻。
利用最近邻可以对测试样例进行分类。

最近邻分类器把每个样例看做 d 维空间上的一个数据点,其中 d 是属性个数。给定一个测试样例,利用任意一种邻近性度量,计算该测试样例与训练集中其他数据点的邻近度。给定样例 z 的 k- 最近邻是指和 z 距离最近的 k 个数据点。
在这里插入图片描述

9、关于最近邻分类器之KNN算法

在这里插入图片描述

Ending!
更多课程知识学习记录随后再来吧!

就酱,嘎啦!

在这里插入图片描述

注:
人生在勤,不索何获。

发布了72 篇原创文章 · 获赞 106 · 访问量 4万+

猜你喜欢

转载自blog.csdn.net/qq_43543789/article/details/105252996
今日推荐