机器学习练习题

从牛客网找来得题目，解析是题目下的高赞答案。

1.输入图片大小为200×200，依次经过一层卷积（kernel size 5×5，padding 1，stride 2），pooling（kernel size 3×3，padding 0，stride 1），又一层卷积（kernel size 3×3，padding 1，stride 1）之后，输出特征图大小为：

答案：97.

解析：输出尺寸=(输入尺寸-filter尺寸+2*padding）/stride+1

2.下列属于无监督学习的是：

a.kmeans

b.svm

c.最大熵

d.crf

答案：A

解析：简单来说，基于已知类别的样本调整分类器的参数，使其达到所要求性能的过程，称为监督学习；对没有分类标记的训练样本进行学习，以发现训练样本集中的结构性知识的过程，成为非监督学习。

其中，k-means为是最为经典的基于划分的无监督学习聚类方法。

PS.科普一下CRF,条件随机场。

我们可以把条件随机场看成是一个无向图模型或马尔可夫随机场，

它是一种用来标记和切分序列化数据的统计模型。该模型是在给定需要标记的观察序列的条件下，计算整个标记序列的联合概率，而不是在给定当前状态条件下，定义下一个状态的分布

3.印度电影《宝莱坞机器人之恋》中的机器人七弟采用的智能算法最有可能是以下哪一种()

a.神经网络

b.遗传算法

c.模拟退火

d.穷举算法

答案：A

解析：没看过电影的笔者悲剧了，只能在豆瓣上看了一下影评，然后下了一个字幕文件，在第876句台词的时候，开发七弟的博士说“你们了解七弟的神经模式吗”。七弟在经过简单学习之后就有了完全可以通过图灵测试的能力，算是比较典型的学习型人工智能，神经网络作为一种运算模型，而其网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。遗传算法作为一种最优搜索算法，对于一个最优化问题，一定数量的候选解（称为个体）的抽象表示（称为染色体）的种群向更好的解进化。

4.一监狱人脸识别准入系统用来识别待进入人员的身份，此系统一共包括识别4种不同的人员：狱警、小偷、送餐员、其他，下面哪种学习方法最适合此种应用需求?

a.二分类问题

b.多分类问题

c.层次聚类问题

d.K-中心点聚类问题

e.回归问题

f.结构分析问题

答案：B

解析：显然，这是一个已知类别的分类问题，又是四个类。

二分类：每个分类器只能把样本分为两类。监狱里的样本分别为狱警、小偷、送餐员、其他。二分类肯定行不通。瓦普尼克95年提出来基础的支持向量机就是个二分类的分类器，这个分类器学习过程就是解一个基于正负二分类推导而来的一个最优规划问题（对偶问题），要解决多分类问题

就要用决策树把二分类的分类器级联，VC维的概念就是说的这事的复杂度。

层次聚类：创建一个层次等级以分解给定的数据集。监狱里的对象分别是狱警、小偷、送餐员、或者其他，他们等级应该是平等的，所以不行。此方法分为自上而下（分解）和自下而上（合并）两种操作方式。

K-中心点聚类：挑选实际对象来代表簇，每个簇使用一个代表对象。它是围绕中心点划分的一种规则，所以这里并不合适。

回归分析：处理变量之间具有相关性的一种统计方法，这里的狱警、小偷、送餐员、其他之间并没有什么直接关系。

结构分析： 结构分析法是在统计分组的基础上，计算各组成部分所占比重，进而分析某一总体现象的内部结构特征、总体的性质、总体内部结构依时间推移而表现出的变化规律性的统计方法。结构分析法的基本表现形式，就是计算结构指标。这里也行不通。

多分类问题： 针对不同的属性训练几个不同的弱分类器，然后将它们集成为一个强分类器。这里狱警、小偷、送餐员以及他某某，分别根据他们的特点设定依据，然后进行区分识别。

5.在spss的基础分析模块中，作用是“以行列表的形式揭示数据之间的关系”的是（）

a.数据描述

b.相关

c.交叉表

d.多重相应

答案：C

解析： spss中交叉分析主要用来检验两个变量之间是否存在关系，或者说是否独立，其零假设为两个变量之间没有关系。在实际工作中，经常用交叉表来分析比例是否相等。例如分析不同的性别对不同的报纸的选择有什么不同。

6.Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是:()

a.各类别的先验概率p(c)是相等的

b.以0为均值，sqr(2)/2为标准差的正态分布

c.特征变量X的各个维度是类别条件独立随机变量

d.P(X|C)是高斯分布

答案：C

解析：朴素贝叶斯的条件就是每个变量相互独立

7. 深度学习是当前很热门的机器学习算法，在深度学习中，涉及到大量的矩阵相乘，现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m*n，n*p，p*q，且m<n<p<q，以下计算顺序效率最高的是（）

a.(AB)C

b.AC(B)

c.A(BC)

d.效率一样

答案：A

解析：首先，根据简单的矩阵知识，因为 A*B ， A 的列数必须和 B 的行数相等。因此，可以排除 B 选项，

然后，再看 A 、 C 选项。在 A 选项中， m*n 的矩阵 A 和 n*p 的矩阵 B 的乘积，得到 m*p 的矩阵 A*B ，而 A*B 的每个元素需要 n 次乘法和 n-1 次加法，忽略加法，共需要 m*n*p 次乘法运算。同样情况分析 A*B 之后再乘以 C 时的情况，共需要 m*p*q 次乘法运算。因此， A 选项 (AB)C 需要的乘法次数是 m*n*p+m*p*q 。同理分析， C 选项 A (BC) 需要的乘法次数是 n*p*q+m*n*q 。

由于 m*n*p< m*n*q ， m*p*q<n*p*q ，显然 A 运算次数更少，故选 A 。

8.下列哪个不属于CRF模型对于HMM和MEMM模型的优势（）

a.特征灵活

b.速度快

c.可容纳较多上下文信息

d.全局最优

答案：B

解析：1）CRF没有HMM那样严格的独立性假设条件，因而可以容纳任意的上下文信息。特征设计灵活（与ME一样） ————与HMM比较
（2）同时，由于CRF计算全局最优输出节点的条件概率，它还克服了最大熵马尔可夫模型标记偏置（Label-bias）的缺点。 ————与MEMM比较
（3）CRF是在给定需要标记的观察序列的条件下，计算整个标记序列的联合概率分布，而不是在给定当前状态条件下，定义下一个状态的状态分布。
————与ME比较

缺点：训练代价大、复杂度高

9.以下关于PMF(概率质量函数),PDF(概率密度函数),CDF(累积分布函数)描述错误的是()

a.PDF描述的是连续型随机变量在特定取值区间的概率

b.CDF是PDF在特定区间上的积分

c.PMF描述的是离散型随机变量在特定取值点的概率

d.有一个分布的CDF函数H(x),则H(a)等于P(X<=a)

答案：A

解析：概率质量函数 (probability mass function，PMF)是离散随机变量在各特定取值上的概率。

概率密度函数（p robability density function，PDF ）是对 连续随机变量 定义的，本身不是概率，只有对连续随机变量的取值进行积分后才是概率。

累积分布函数（cumulative distribution function，CDF）能完整描述一个实数随机变量X的概率分布，是概率密度函数的积分。对於所有实数x ，与pdf相对。

10. 关于 logit 回归和 SVM 不正确的是（）

a.Logit回归目标函数是最小化后验概率

b.Logit回归可以用于预测事件发生概率的大小

c.SVM目标是结构风险最小化

d.SVM可以有效避免模型过拟合

答案：A

解析：A. Logit回归本质上是一种根据样本对权值进行极大似然估计的方法，而后验概率正比于先验概率和似然函数的乘积。logit仅仅是最大化似然函数，并没有最大化后验概率，更谈不上最小化后验概率。A错误 B. Logit回归的输出就是样本属于正类别的几率，可以计算出概率，正确 C. SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面，应该属于结构风险最小化，严格来说也是错误的。 D. SVM可以通过正则化系数控制模型的复杂度，避免过拟合。

11.有两个样本点，第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是()

答案：x+2y=3

解析：首先得知道SVM分类面概念。先求两点斜率2,知道垂线斜率-1/2，再代入中点（1,1），得出答案。

12.假定某同学使用Naive Bayesian（NB）分类模型时，不小心将训练数据的两个维度搞重复了，那么关于NB的说法中正确的是：

a.这个被重复的特征在模型中的决定作用会被加强

b.模型效果相比无重复特征的情况下精确度会降低

c.如果所有特征都被重复一遍，得到的模型预测结果相对于不重复的情况下的模型预测结果一样。

d.当两列特征高度相关时，无法用两列特征相同时所得到的结论来分析问题

e.NB可以用来做最小二乘回归

f.以上说法都不正确

答案：BD

解析： NB的核心在于它假设向量的所有分量之间是独立的。道题还是在考察nb算法的前提条件。

在贝叶斯理论系统中，都有一个重要的条件独立性假设：假设所有特征之间相互独立，这样才能将联合概率拆分

13.数据清理中，处理缺失值的方法是?

a.估算

b.整例删除

c.变量删除

d.成对删除

答案：ABCD

解析:由于调查、编码和录入误差，数据中可能存在一些无效值和缺失值，需要给予适当的处理。常用的处理方法有：估算，整例删除，变量删除和成对删除。

估算(estimation)。最简单的办法就是用某个变量的样本均值、中位数或众数代替无效值和缺失值。这种办法简单，但没有充分考虑数据中已有的信息，误差可能较大。另一种办法就是根据调查对象对其他问题的答案，通过变量之间的相关分析或逻辑推论进行估计。例如，某一产品的拥有情况可能与家庭收入有关，可以根据调查对象的家庭收入推算拥有这一产品的可能性。

整例删除(casewise deletion)是剔除含有缺失值的样本。由于很多问卷都可能存在缺失值，这种做法的结果可能导致有效样本量大大减少，无法充分利用已经收集到的数据。因此，只适合关键变量缺失，或者含有无效值或缺失值的样本比重很小的情况。

变量删除(variable deletion)。如果某一变量的无效值和缺失值很多，而且该变量对于所研究的问题不是特别重要，则可以考虑将该变量删除。这种做法减少了供分析用的变量数目，但没有改变样本量。

成对删除(pairwise deletion)是用一个特殊码(通常是9、99、999等)代表无效值和缺失值，同时保留数据集中的全部变量和样本。但是，在具体计算时只采用有完整答案的样本，因而不同的分析因涉及的变量不同，其有效样本量也会有所不同。这是一种保守的处理方法，最大限度地保留了数据集中的可用信息。

采用不同的处理方法可能对分析结果产生影响，尤其是当缺失值的出现并非随机且变量之间明显相关时。因此，在调查中应当尽量避免出现无效值和缺失值，保证数据的完整性。

14.机器学习中做特征选择时，可能用到的方法有？

a.卡方

b.信息增益

c.平均互信息

d.期待交叉熵

答案：ABCD

解析:在文本分类中，首先要对数据进行特征提取，特征提取中又分为特征选择和特征抽取两大类，在特征选择算法中有互信息，文档频率，信息增益，卡方检验以及期望交叉熵。

期望交叉熵，以文本分类为例子，期望交叉熵用来度量一个词对于整体的重要程度。

在ID3决策树中，也使用信息增益作为特征选择的方法，在C4.5决策树中，使用信息增益比作为特征选择的方法，在CART中，使用基尼指数作为特征选择的方法

15.在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为10w条数据,负样本只有1w条数据,以下最合适的处理方法是()

a.将负样本重复10次,生成10w样本量,打乱顺序参与分类

b.直接进行分类,可以最大限度利用数据

c.从10w正样本中随机抽取1w参与分类

d.将负样本每个权重设置为10,正样本权重为1,参与训练过程

答案：ACD

解析：解决这类问题主要分重采样、欠采样、调整权值

1. 重采样。

A可视作重采样的变形。改变数据分布消除不平衡，可能导致过拟合。

2. 欠采样。

C的方案提高少数类的分类性能，可能丢失多数类的重要信息。

如果1：10算是均匀的话，可以将多数类分割成为1000份。然后将每一份跟少数类的样本组合进行训练得到分类器。而后将这1000个分类器用assemble的方法组合位一个分类器。A选项可以看作此方式，因而相对比较合理。

另：如果目标是预测的分布跟训练的分布一致，那就加大对分布不一致的惩罚系数。

3. 权值调整。

D方案也是其中一种方式。

猜你喜欢