机器学习期末考试填空题

1.Series是一种一维数组对象，包含一个值序列。Series中的数据通过（）访问。

参考答案：索引

2.理想中的激活函数是阶跃函数，但因其不连续、不光滑，实际常用（）作为激活函数。该函数把可能在较大范围内变化的输入值挤压到（0，1）输出值范围内，因此有时也被称为“挤压函数”。

参考答案： sigmoid函数（注意小写）

3.属性shape返回的是（）。

参考答案：维度

4.自助法约有（）的样本没有出现在训练集中，可用作测试集。

参考答案： 1/3

5.Numpy中的ndarray的size属性返回的是（）。

参考答案：数组元素个数

6.从数据中学得模型的过程称为“学习”或（），这个过程通过执行某个学习算法来完成。

参考答案：训练

7.SVM的主要目标是寻找最佳（），以便在不同类的数据间进行正确分类。

参考答案：超平面

8.当学习器把训练样本学得“太好”了的时候，可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降。这种现象在机器学习中称为（）。

参考答案：过拟合

9.训练过程中使用的数据称为“训练数据”，其中每个样本称为一个“训练样本”；学得模型后，使用其进行预测的过程称为（）。

参考答案：测试

10.sklearn模块的（）子模块提供了多种自带的数据集，可以通过这些数据集进行数据的预处理、建模等操作，从而练习使用sklearn模块实现数据分析的处理流程和建模流程。

参考答案： datasets

11.Pandas通过read_json函数读取（）数据。

参考答案： JSON （注意大写）

12.回归任务中最常用的性能度量是（）。

参考答案：均方误差

13.Numpy的主要数据类型是（）。参考答案： ndarray

14.若训练过程的目标是预测连续值，此类学习任务称为（）。

参考答案：回归

15.聚类试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个（）。

参考答案：簇

16.在K-Means算法中，由簇的（）来代表整个簇。

参考答案：平均值

又是一个平均代表多数的情况。

17.高维情形下出现的数据样本稀疏、距离计算困难等问题，是所有机器学习方法共同面临的严重障碍，被称为（）。

参考答案：维数灾难

18.学得模型适用于新样本的能力，称为（）能力。该能力越强，说明学得的模型越能很好地适用于整个样本空间。

参考答案：泛化

19.Scipy中的（）模块提供了常用的优化方法。

参考答案： optimize

20.一个DataFrame对象的属性values和ndim分别指数据元素和（）。

参考答案：维度

21.Numpy中的random模块中的函数shuffle的功能是对一个序列进行（）。

参考答案：随机排序

22.scikit-learn是面向（）方向第三方库。

参考答案：机器学习

23.线性学习适合结合连续属性值的问题，对于离散属性值的问题，需要首先将其（），这一步也称为数字化编码。

参考答案：连续化

24.（）是缓解维数灾难的一个重要途径，即通过某种数学变换将原始高维属性空间转变为一个低维“子空间”，在这个子空间中样本密度大幅提高，距离计算也变得更为容易。

参考答案：降维

25.测试集应该尽可能与训练集（），即测试样本尽量不在训练集中出现、未在训练过程中使用过。

参考答案：互斥

试题解析：解析：只有训练集和测试集尽可能的互斥，得到的测试结果才能较为客观地反映学习器的真实学习性能。

26.若训练过程的目标是预测离散值，此类任务称为（）。

参考答案：分类

27.已知字典dic={'w':97,'a':19}，则dic.get('w', None)的值是（）。

参考答案： 97

get()方法语法：dict.get(key, default=None)

参数：key -- 字典中要查找的键。

default -- 如果指定键的值不存在时，返回该默认值。

28.Pandas中的（）方法可以根据索引或字段对数据进行分组。

参考答案： groupby

29.Scipy中的（）模块包含大量用于科学计算的常数。

参考答案： constants

30.反映事件或对象在某方面的表现或性质的事项，例如“色泽”等，称为“属性”（attribute）或“特征”（feature），属性上的取值，例如“青绿”“乌黑”，称为（）。

参考答案：属性值

31.利用二分类学习器解决多分类任务的基本策略是对多分类任务进行（），为拆出的每个二分类任务训练一个分类器，然后对每个分类器的预测结果进行集成，以获得最终的多分类结果。

参考答案：拆分

32.数组转置是数据重塑的一种特殊形式，可以通过（）方法或数组的T属性实现。

参考答案： transpose

33.通常（）作为泛化误差的近似。

参考答案：测试误差

34.创建一个范围在(0,1)之间的长度为12的等差数列的语句是（）。

参考答案： np.linspace(0,1,12)

35.根据训练数据是否拥有标记信息，可将学习任务大致划分为有监督学习和（）。

参考答案：无监督学习

36.matplotlib库是用于（）方向的第三方库。

参考答案：数据可视化

37.（）分析通过建模研究多个自变量对因变量的影响强度，预测数值型目标值。

参考答案：回归

38.学习器在训练集上的误差称为训练误差或经验误差，在新样本上的误差称（）。该误差越小，说明学习器的学习性能越好。

参考答案：泛化误差

机器学习期末考试填空题

猜你喜欢