一个月刷完机器学习笔试题300题(9)

第九天

1、对于下面三个模型的训练情况, 下面说法正确的是:

  1. 第一张图的训练错误与其余两张图相比,是最大的
  2. 最后一张图的训练效果最好,因为训练错误最小
  3. 第二张图比第一和第三张图鲁棒性更强,是三个里面表现最好的模型
  4. 第三张图相对前两张图过拟合了
  5. 三个图表现一样,因为我们还没有测试数据集

A 1 和 3
B 1 和 3
C 1, 3 和 4
D 5
正确答案是:C
最后一张过拟合, 训练错误最小, 第一张相反, 训练错误就是最大了. 所以1是对的;
仅仅训练错误最小往往说明过拟合, 所以2错, 4对;
第二张图平衡了拟合和过拟合, 所以3对;
2、对于线性回归,我们应该有以下哪些假设?

  1. 找到离群点很重要, 因为线性回归对离群点很敏感
  2. 线性回归要求所有变量必须符合正态分布
  3. 线性回归假设数据没有多重线性相关性
    A
    1 和 2
    B
    2 和 3
    C
    1,2 和 3
    D
    以上都不是
    正确答案是:D
    第1个假设, 离群点要着重考虑, 第一点是对的
    第2个假设, 正态分布不是必须的. 当然, 如果是正态分布, 训练效果会更好
    第3个假设, 有少量的多重线性相关性也是可以的, 但是我们要尽量避免

3、当我们构造线性模型时, 我们注意变量间的相关性. 在相关矩阵中搜索相关系数时, 如果我们发现3对变量的相关系数是(Var1 和Var2, Var2和Var3, Var3和Var1)是-0.98, 0.45, 1.23 . 我们可以得出什么结论:

  1. Var1和Var2是非常相关的
  2. 因为Var1和Var2是非常相关的, 我们可以去除其中一个
  3. Var3和Var1的1.23相关系数是不可能的

A
1 and 3
B
1 and 2
C
1,2 and 3
D
1
正确答案是:C
相关性系数范围应该是 [-1,1]
一般地, 如果相关系数大于0.7或者小于-0.7, 是高相关的.
Var1和Var2相关系数是接近负1, 所以这是多重线性相关, 我们可以考虑去除其中一个.
所以1, 2, 3个结论都是对的, 选C.
4、如果在一个高度非线性并且复杂的一些变量中, 一个树模型可能比一般的回归模型效果更好. 这是()
A
对的
B
错的
正确答案是:A
5、下面对集成学习模型中的弱学习者描述错误的是?
A
他们经常不会过拟合
B
他们通常带有高偏差,所以其并不能解决复杂学习问题
C
他们通常会过拟合
正确答案是:C
注意是错误的描述
弱学习者是问题的特定部分。所以他们通常不会过拟合,这也就意味着弱学习者通常拥有低方差和高偏差。
6、下面哪个/些选项对 K 折交叉验证的描述是正确的?
1.增大 K 将导致交叉验证结果时需要更多的时间
2.更大的 K 值相比于小 K 值将对交叉验证结构有更高的信心
3.如果 K=N,那么其称为留一交叉验证,其中 N 为验证集中的样本数量
A
1 和 2
B
2 和 3
C
1 和 3
D
1、2 和 3
正确答案是:D
大 K 值意味着对过高估计真实预期误差(训练的折数将更接近于整个验证集样本数)拥有更小的偏差和更多的运行时间(并随着越来越接近极限情况:留一交叉验证)。我们同样在选择 K 值时需要考虑 K 折准确度和方差间的均衡。

7、最出名的降维算法是 PCA 和 t-SNE。将这两个算法分别应用到数据「X」上,并得到数据集「X_projected_PCA」,「X_projected_tSNE」。下面哪一项对「X_projected_PCA」和「X_projected_tSNE」的描述是正确的?
A
X_projected_PCA 在最近邻空间能得到解释
B
X_projected_tSNE 在最近邻空间能得到解释
C
两个都在最近邻空间能得到解释
D
两个都不能在最近邻空间得到解释
正确答案是: B
t-SNE 算法考虑最近邻点而减少数据维度。所以在使用 t-SNE 之后,所降的维可以在最近邻空间得到解释。但 PCA 不能。

8、给定三个变量 X,Y,Z。(X, Y)、(Y, Z) 和 (X, Z) 的 Pearson 相关性系数分别为 C1、C2 和 C3。现在 X 的所有值加 2(即 X+2),Y 的全部值减 2(即 Y-2),Z 保持不变。那么运算之后的 (X, Y)、(Y, Z) 和 (X, Z) 相关性系数分别为 D1、D2 和 D3。现在试问 D1、D2、D3 和 C1、C2、C3 之间的关系是什么?
A D1= C1, D2 < C2, D3 > C3
B
D1 = C1, D2 > C2, D3 > C3
C
D1 = C1, D2 > C2, D3 < C3
D
D1 = C1, D2 < C2, D3 < C3
E
D1 = C1, D2 = C2, D3 = C3
正确答案是:E
特征之间的相关性系数不会因为特征加或减去一个数而改变。

9、为了得到和 SVD 一样的投射(projection),你需要在 PCA 中怎样做?
A
将数据转换成零均值
B
将数据转换成零中位数
C
无法做到
正确答案是:A
当数据有一个 0 均值向量时,PCA 有与 SVD 一样的投射,否则在使用 SVD 之前,你必须将数据均值归 0

10、假设我们有一个数据集,在一个深度为 6 的决策树的帮助下,它可以使用 100% 的精确度被训练。现在考虑一下两点,并基于这两点选择正确的选项。
注意:所有其他超参数是相同的,所有其他因子不受影响。
1.深度为 4 时将有高偏差和低方差
2.深度为 4 时将有低偏差和低方差
A
只有 1
B
只有 2
C
1 和 2
D
没有一个
正确答案是:A
如果在这样的数据中你拟合深度为 4 的决策树,这意味着其更有可能与数据欠拟合。因此,在欠拟合的情况下,你将获得高偏差和低方差。

猜你喜欢

转载自blog.csdn.net/ZHANG781068447/article/details/83690272