一个月刷完机器学习笔试题300题（9）

第九天

1、对于下面三个模型的训练情况，下面说法正确的是:

第一张图的训练错误与其余两张图相比，是最大的
最后一张图的训练效果最好，因为训练错误最小
第二张图比第一和第三张图鲁棒性更强，是三个里面表现最好的模型
第三张图相对前两张图过拟合了
三个图表现一样，因为我们还没有测试数据集

A 1 和 3
B 1 和 3
C 1, 3 和 4
D 5
正确答案是：C
最后一张过拟合, 训练错误最小, 第一张相反, 训练错误就是最大了. 所以1是对的;
仅仅训练错误最小往往说明过拟合, 所以2错, 4对;
第二张图平衡了拟合和过拟合, 所以3对;
2、对于线性回归，我们应该有以下哪些假设？

找到离群点很重要, 因为线性回归对离群点很敏感
线性回归要求所有变量必须符合正态分布
线性回归假设数据没有多重线性相关性
A
1 和 2
B
2 和 3
C
1,2 和 3
D
以上都不是
正确答案是：D
第1个假设, 离群点要着重考虑, 第一点是对的
第2个假设, 正态分布不是必须的. 当然, 如果是正态分布, 训练效果会更好
第3个假设, 有少量的多重线性相关性也是可以的, 但是我们要尽量避免

3、当我们构造线性模型时, 我们注意变量间的相关性. 在相关矩阵中搜索相关系数时, 如果我们发现3对变量的相关系数是(Var1 和Var2, Var2和Var3, Var3和Var1)是-0.98, 0.45, 1.23 . 我们可以得出什么结论:

Var1和Var2是非常相关的
因为Var1和Var2是非常相关的, 我们可以去除其中一个
Var3和Var1的1.23相关系数是不可能的

A
1 and 3
B
1 and 2
C
1,2 and 3
D
1
正确答案是：C
相关性系数范围应该是 [-1,1]
一般地, 如果相关系数大于0.7或者小于-0.7, 是高相关的.
Var1和Var2相关系数是接近负1, 所以这是多重线性相关, 我们可以考虑去除其中一个.
所以1, 2, 3个结论都是对的, 选C.
4、如果在一个高度非线性并且复杂的一些变量中, 一个树模型可能比一般的回归模型效果更好. 这是（）
A
对的
B
错的
正确答案是：A
5、下面对集成学习模型中的弱学习者描述错误的是？
A
他们经常不会过拟合
B
他们通常带有高偏差，所以其并不能解决复杂学习问题
C
他们通常会过拟合
正确答案是：C
注意是错误的描述
弱学习者是问题的特定部分。所以他们通常不会过拟合，这也就意味着弱学习者通常拥有低方差和高偏差。
6、下面哪个/些选项对 K 折交叉验证的描述是正确的？
1.增大 K 将导致交叉验证结果时需要更多的时间
2.更大的 K 值相比于小 K 值将对交叉验证结构有更高的信心
3.如果 K=N，那么其称为留一交叉验证，其中 N 为验证集中的样本数量
A
1 和 2
B
2 和 3
C
1 和 3
D
1、2 和 3
正确答案是：D
大 K 值意味着对过高估计真实预期误差（训练的折数将更接近于整个验证集样本数）拥有更小的偏差和更多的运行时间（并随着越来越接近极限情况：留一交叉验证）。我们同样在选择 K 值时需要考虑 K 折准确度和方差间的均衡。

7、最出名的降维算法是 PCA 和 t-SNE。将这两个算法分别应用到数据「X」上，并得到数据集「X_projected_PCA」，「X_projected_tSNE」。下面哪一项对「X_projected_PCA」和「X_projected_tSNE」的描述是正确的？
A
X_projected_PCA 在最近邻空间能得到解释
B
X_projected_tSNE 在最近邻空间能得到解释
C
两个都在最近邻空间能得到解释
D
两个都不能在最近邻空间得到解释
正确答案是： B
t-SNE 算法考虑最近邻点而减少数据维度。所以在使用 t-SNE 之后，所降的维可以在最近邻空间得到解释。但 PCA 不能。

8、给定三个变量 X，Y，Z。(X, Y)、(Y, Z) 和 (X, Z) 的 Pearson 相关性系数分别为 C1、C2 和 C3。现在 X 的所有值加 2（即 X+2），Y 的全部值减 2（即 Y-2），Z 保持不变。那么运算之后的 (X, Y)、(Y, Z) 和 (X, Z) 相关性系数分别为 D1、D2 和 D3。现在试问 D1、D2、D3 和 C1、C2、C3 之间的关系是什么？
A D1= C1, D2 < C2, D3 > C3
B
D1 = C1, D2 > C2, D3 > C3
C
D1 = C1, D2 > C2, D3 < C3
D
D1 = C1, D2 < C2, D3 < C3
E
D1 = C1, D2 = C2, D3 = C3
正确答案是：E
特征之间的相关性系数不会因为特征加或减去一个数而改变。

9、为了得到和 SVD 一样的投射（projection），你需要在 PCA 中怎样做？
A
将数据转换成零均值
B
将数据转换成零中位数
C
无法做到
正确答案是：A
当数据有一个 0 均值向量时，PCA 有与 SVD 一样的投射，否则在使用 SVD 之前，你必须将数据均值归 0

10、假设我们有一个数据集，在一个深度为 6 的决策树的帮助下，它可以使用 100% 的精确度被训练。现在考虑一下两点，并基于这两点选择正确的选项。
注意：所有其他超参数是相同的，所有其他因子不受影响。
1.深度为 4 时将有高偏差和低方差
2.深度为 4 时将有低偏差和低方差
A
只有 1
B
只有 2
C
1 和 2
D
没有一个
正确答案是：A
如果在这样的数据中你拟合深度为 4 的决策树，这意味着其更有可能与数据欠拟合。因此，在欠拟合的情况下，你将获得高偏差和低方差。

一个月刷完机器学习笔试题300题（9）

第九天

猜你喜欢