数据挖掘题目集——判断题

1、属性的测量值与属性的值的意义是完全对等的 F
解析:属性的测量值和属性的值并不总是完全对等的,因为属性的值通常是具有特定含义的离散值,而属性的测量值则是数值

2、天气属性值中“晴天”和“多云”可以用不同的数字来表示,它们没有前后次序关系 T

3、序数类属性值有大小或前后关系,可进行大于或小于的比较运算 T

4、二元类属性值通常用0或1表示,可进行大小比较 F
解析:二元类属性值是一个离散的属性类型,表示一个物品是否属于某个类别,通常用0或1表示,其中0表示不属于该类别,1表示属于该类别。这种属性类型的取值只有两种,是一种特殊的分类类型。由于二元类属性值只有两种取值,因此不能进行大小比较,因为大小比较要求属性值之间具有可比性,即一个值是否大于另一个值是有意义的,而对于二元类属性值,0和1之间没有大小关系。因此,在对二元类属性进行数据分析和处理时,不能将其视为数值型属性,而应该将其视为分类型属性

5、摄氏温度值24.4比摄氏温度值12.2温暖两倍 F
解析:摄氏温度值24.4并不比摄氏温度值12.2温暖两倍,因为温度的比较不是一个线性比较。摄氏温度值的差异可以用温度差来衡量,但是温度的比较不能用简单的除法计算。摄氏温度值之间的比较是基于绝对零度的,即0℃表示的是水在标准大气压下的冰点,而不是温度的绝对零点。因此,摄氏温度值之间的比较应该是基于温度差的大小关系,而不是简单的比例关系。换言之,温度值24.4和12.2之间的差距是12.2,而不是24.4是12.2的两倍。

6、数据规范化主要包括数据同趋化处理和无量纲化处理两个方面,可以使属性值按比例落入到一个特定区间,如[-1,1]或[0,1] T

7、用距离来衡量对象之间的相似程度。距离越大,对象间的相似性就越大 F
解析:用距离来衡量对象之间的相似程度是常见的方法之一,但距离越大并不意味着对象之间的相似性就越大。在距离度量中,距离定义了两个对象之间的差异大小,因此距离越小,表示对象之间的相似性越高,反之,距离越大,表示对象之间的差异越大,相似性越低。举个例子,如果我们用欧式距离来衡量两个人的相似程度,假设两个人的身高、体重、年龄等属性值差别很大,那么他们之间的距离就会很大,表示他们之间的差异很大,相似程度很低。相反地,如果两个人的身高、体重、年龄等属性值差别很小,那么他们之间的距离就会很小,表示他们之间的差异很小,相似程度很高。因此,距离越小,表示对象之间的相似性越高。

8、数据约简技术可以用来得到数据集的归约表示,它虽然小,但仍大致保持原数据的完整性 T

9、信息熵给出了一种度量不确定性的方式,是用来衡量随机变量不确定性的,熵就是信息的期望值 T

10、C4.5算法挑选具有最高信息增益的属性为测试属性 F
解析:这题应该是答案设置错误,C4.5算法的特征选择是基于信息增益来完成的。信息增益是衡量一个特征对分类任务的贡献的指标,计算公式为:
G a i n ( D , A ) = E n t ( D ) − ∑ v = 1 V ∣ D v ∣ ∣ D ∣ E n t ( D v ) Gain(D, A) = Ent(D) - \sum_{v=1}^{V} \frac{|D^v|}{|D|} Ent(D^v) Gain(D,A)=Ent(D)v=1VDDvEnt(Dv)
其中, D D D为数据集, A A A为特征, V V V为特征 A A A的取值数目, D v D^v Dv为特征 A A A等于 v v v的样本子集, E n t ( D ) Ent(D) Ent(D)为数据集 D D D的熵, E n t ( D v ) Ent(D^v) Ent(Dv)为样本子集 D v D^v Dv的熵。
C4.5算法会计算每个特征的信息增益,并选择具有最高信息增益的特征作为测试属性。具体来说,C4.5算法会对每个特征计算信息增益,然后将信息增益最大的特征作为测试属性。这个过程称为特征选择。

11、信息增益是针对一个一个的特征而言的,就是看一个特征,系统有它和没它的时候信息量各是多少,两者的差值就是这个特征给系统带来的信息增益 T

12、决策树的后剪枝是通过在完全生长的树上剪去分枝实现的,通过删除节点的分支来剪去树节点 T

13、属性A的熵值H(X,A)是为了获取样本关于属性A的信息所需要付出的代价 T

猜你喜欢

转载自blog.csdn.net/qq_52331221/article/details/129824720