数据挖掘题目集——判断题

1、属性的测量值与属性的值的意义是完全对等的 F
解析：属性的测量值和属性的值并不总是完全对等的，因为属性的值通常是具有特定含义的离散值，而属性的测量值则是数值

2、天气属性值中“晴天”和“多云”可以用不同的数字来表示，它们没有前后次序关系 T

3、序数类属性值有大小或前后关系，可进行大于或小于的比较运算 T

4、二元类属性值通常用0或1表示，可进行大小比较 F
解析：二元类属性值是一个离散的属性类型，表示一个物品是否属于某个类别，通常用0或1表示，其中0表示不属于该类别，1表示属于该类别。这种属性类型的取值只有两种，是一种特殊的分类类型。由于二元类属性值只有两种取值，因此不能进行大小比较，因为大小比较要求属性值之间具有可比性，即一个值是否大于另一个值是有意义的，而对于二元类属性值，0和1之间没有大小关系。因此，在对二元类属性进行数据分析和处理时，不能将其视为数值型属性，而应该将其视为分类型属性

5、摄氏温度值24.4比摄氏温度值12.2温暖两倍 F
解析：摄氏温度值24.4并不比摄氏温度值12.2温暖两倍，因为温度的比较不是一个线性比较。摄氏温度值的差异可以用温度差来衡量，但是温度的比较不能用简单的除法计算。摄氏温度值之间的比较是基于绝对零度的，即0℃表示的是水在标准大气压下的冰点，而不是温度的绝对零点。因此，摄氏温度值之间的比较应该是基于温度差的大小关系，而不是简单的比例关系。换言之，温度值24.4和12.2之间的差距是12.2，而不是24.4是12.2的两倍。

6、数据规范化主要包括数据同趋化处理和无量纲化处理两个方面，可以使属性值按比例落入到一个特定区间，如[-1,1]或[0,1] T

7、用距离来衡量对象之间的相似程度。距离越大，对象间的相似性就越大 F
解析：用距离来衡量对象之间的相似程度是常见的方法之一，但距离越大并不意味着对象之间的相似性就越大。在距离度量中，距离定义了两个对象之间的差异大小，因此距离越小，表示对象之间的相似性越高，反之，距离越大，表示对象之间的差异越大，相似性越低。举个例子，如果我们用欧式距离来衡量两个人的相似程度，假设两个人的身高、体重、年龄等属性值差别很大，那么他们之间的距离就会很大，表示他们之间的差异很大，相似程度很低。相反地，如果两个人的身高、体重、年龄等属性值差别很小，那么他们之间的距离就会很小，表示他们之间的差异很小，相似程度很高。因此，距离越小，表示对象之间的相似性越高。

8、数据约简技术可以用来得到数据集的归约表示，它虽然小，但仍大致保持原数据的完整性 T

9、信息熵给出了一种度量不确定性的方式，是用来衡量随机变量不确定性的，熵就是信息的期望值 T

10、C4.5算法挑选具有最高信息增益的属性为测试属性 F
解析：这题应该是答案设置错误，C4.5算法的特征选择是基于信息增益来完成的。信息增益是衡量一个特征对分类任务的贡献的指标，计算公式为：
$\sum_{v=1}^{V} \frac{|D^v|}{|D|} Ent(D^v)$
其中， $D$ 为数据集， $A$ 为特征， $V$ 为特征 $A$ 的取值数目， $D^v$ 为特征 $A$ 等于 $v$ 的样本子集， $E n t (D)$ 为数据集 $D$ 的熵， $Ent(D^v)$ 为样本子集 $D^v$ 的熵。
C4.5算法会计算每个特征的信息增益，并选择具有最高信息增益的特征作为测试属性。具体来说，C4.5算法会对每个特征计算信息增益，然后将信息增益最大的特征作为测试属性。这个过程称为特征选择。

11、信息增益是针对一个一个的特征而言的，就是看一个特征，系统有它和没它的时候信息量各是多少，两者的差值就是这个特征给系统带来的信息增益 T

12、决策树的后剪枝是通过在完全生长的树上剪去分枝实现的，通过删除节点的分支来剪去树节点 T

13、属性A的熵值H(X,A)是为了获取样本关于属性A的信息所需要付出的代价 T

数据挖掘题目集——判断题

猜你喜欢