机器学习练习题

从牛客网找来得题目,解析是题目下的高赞答案。

1.输入图片大小为200×200,依次经过一层卷积(kernel size 5×5,padding 1,stride 2),pooling(kernel size 3×3,padding 0,stride 1),又一层卷积(kernel size 3×3,padding 1,stride 1)之后,输出特征图大小为:

答案:97.

解析:输出尺寸=(输入尺寸-filter尺寸+2*padding)/stride+1


2.下列属于无监督学习的是:

a.kmeans

b.svm

c.最大熵

d.crf

答案:A

解析:简单来说,基于已知类别的样本调整 分类 的参数,使其达到所要求性能的过程,称为监督学习;对没有分类标记的训练样本进行学习,以发现训练样本集中的结构性知识的过程,成为非监督学习。

其中,k-means为是最为经典的基于划分的无监督学习聚类方法
PS.科普一下CRF,条件随机场。

我们可以把条件随机场看成是一个无向图模型或马尔可夫随机场,

它是一种用来标记和切分序列化数据的统计模型。该模型是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率,而不是在给定当前状态条件下,定义下一个状态的分布


3.印度电影《宝莱坞机器人之恋》中的机器人七弟采用的智能算法最有可能是以下哪一种()

a.神经网络

b.遗传算法

c.模拟退火

d.穷举算法

答案:A

解析:没看过电影的笔者悲剧了,只能在豆瓣上看了一下影评,然后下了一个字幕文件,在第876句台词的时候,开发七弟的博士说“你们了解七弟的神经模式吗”。七弟在经过简单学习之后就有了完全可以通过图灵测试的能力,算是比较典型的学习型人工智能,神经网络作为一种运算模型,而其网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。遗传算法作为一种最优搜索算法,对于一个最优化问题,一定数量的候选解(称为个体)的抽象表示(称为染色体)的种群向更好的解进化。


4.一监狱人脸识别准入系统用来识别待进入人员的身份,此系统一共包括识别4种不同的人员:狱警、小偷、送餐员、其他,下面哪种学习方法最适合此种应用需求?

a.二分类问题

b.多分类问题

c.层次聚类问题

d.K-中心点聚类问题

e.回归问题

f.结构分析问题

答案:B

解析:显然,这是一个已知类别的分类问题,又是四个类。

二分类每个分类器只能把样本分为两类。监狱里的样本分别为狱警、小偷、送餐员、其他。二分类肯   定行不通。瓦普尼克95年提出来基础的支持向量机就是个二分类的分类器,这个分类器学习过   程就是解一个基于正负二分类推导而来的一个最优规划问题(对偶问题),要解决多分类问题 

就要用决策树把二分类的分类器级联,VC维的概念就是说的这事的复杂度。
层次聚类 创建一个层次等级以分解给定的数据集。监狱里的对象分别是狱警、小偷、送餐员、或者其 他,他们等级应该是平等的,所以不行。此方法分为自上而下(分解)和自下而上(合并)两种操作方式。
K-中心点聚类:挑选实际对象来代表簇,每个簇使用一个代表对象。它是围绕中心点划分的一种规则,所以这里并不合适。
回归分析:处理变量之间具有相关性的一种统计方法,这里的狱警、小偷、送餐员、其他之间并没有什 么直接关系。
结构分析: 结构分析法是在统计分组的基础上,计算各组成部分所占比重,进而分析某一总体现象的内部结构特征、总体的性质、总体内部结构依时间推移而表现出的变化规律性的统计方法。结构分析法的基本表现形式,就是计算结构指标。这里也行不通。
多分类问题: 针对不同的属性训练几个不同的弱分类器,然后将它们集成为一个强分类器。这里狱警、 小偷、送餐员 以及他某某,分别根据他们的特点设定依据,然后进行区分识别。

5.在spss的基础分析模块中,作用是“以行列表的形式揭示数据之间的关系”的是( )
a.数据描述
b.相关
c.交叉表
d.多重相应
答案:C
解析: spss中交叉分析主要用来检验两个变量之间是否存在关系,或者说是否独立,其零假设为两个变量之间没有关系。在实际工作中,经常用交叉表来分析比例是否相等。例如分析不同的性别对不同的报纸的选择有什么不同

6.Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是:()
a.各类别的先验概率p(c)是相等的
b.以0为均值,sqr(2)/2为标准差的正态分布
c.特征变量X的各个维度是类别条件独立随机变量
d.P(X|C)是高斯分布
答案:C
解析:朴素贝叶斯的条件就是每个变量相互独立

7. 深度学习是当前很热门的机器学习算法,在深度学习中,涉及到大量的矩阵相乘,现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m*nn*pp*q,且m<n<p<q,以下计算顺序效率最高的是()
a.(AB)C
b.AC(B)
c.A(BC)
d.效率一样
答案:A
解析: 首先,根据简单的矩阵知识,因为 A*B A 的列数必须和 B 的行数相等。因此,可以排除 B 选项,

然后,再看 A C 选项。在 A 选项中, m*n 的矩阵 A n*p 的矩阵 B 的乘积,得到 m*p 的矩阵 A*B ,而 A*B 的每个元素需要 n 次乘法和 n-1 次加法,忽略加法,共需要 m*n*p 次乘法运算。同样情况分析 A*B 之后再乘以 C 时的情况,共需要 m*p*q 次乘法运算。因此, A 选项 (AB)C 需要的乘法次数是 m*n*p+m*p*q 。同理分析, C 选项 A (BC) 需要的乘法次数是 n*p*q+m*n*q

由于 m*n*p< m*n*q m*p*q<n*p*q ,显然 A 运算次数更少,故选 A


8.下列哪个不属于CRF模型对于HMM和MEMM模型的优势( )
a.特征灵活
b.速度快
c.可容纳较多上下文信息
d.全局最优
答案:B
解析:1)CRF没有HMM那样严格的独立性假设条件,因而可以容纳任意的上下文信息。特征设计灵活(与ME一样) ————与HMM比较
(2)同时,由于CRF计算全局最优输出节点的条件概率,它还克服了最大熵马尔可夫模型标记偏置(Label-bias)的缺点。 ­­————与MEMM比较
(3)CRF是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。
————与ME比较
缺点:训练代价大、复杂度高

9.以下关于PMF(概率质量函数),PDF(概率密度函数),CDF(累积分布函数)描述错误的是()
a.PDF描述的是连续型随机变量在特定取值区间的概率
b.CDF是PDF在特定区间上的积分
c.PMF描述的是离散型随机变量在特定取值点的概率
d.有一个分布的CDF函数H(x),则H(a)等于P(X<=a)
答案:A
解析: 概率质量函数 (probability mass function,PMF)是离散随机变量在各特定取值上的概率。
概率密度函数(p robability density function,PDF )是对 连续随机变量 定义的,本身不是概率,只有对连续随机变量的取值进行积分后才是概率。
累积分布函数(cumulative distribution function,CDF) 能完整描述一个实数随机变量X的概率分布,是概率密度函数的积分。对於所有实数x ,与pdf相对。

10. 关于 logit 回归和 SVM 不正确的是()
a.Logit回归目标函数是最小化后验概率
b.Logit回归可以用于预测事件发生概率的大小
c.SVM目标是结构风险最小化
d.SVM可以有效避免模型过拟合
答案:A
解析:A. Logit回归本质上是一种根据样本对权值进行极大似然估计的方法,而后验概率正比于先验概率和似然函数的乘积。logit仅仅是最大化似然函数,并没有最大化后验概率,更谈不上最小化后验概率。A错误 B. Logit回归的输出就是样本属于正类别的几率,可以计算出概率,正确 C. SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,应该属于结构风险最小化,严格来说也是错误的。 D. SVM可以通过正则化系数控制模型的复杂度,避免过拟合。

11.有两个样本点,第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是()
答案:x+2y=3
解析:首先得知道SVM分类面概念。先求两点斜率2,知道垂线斜率-1/2,再代入中点(1,1),得出答案。

12.假定某同学使用Naive Bayesian(NB)分类模型时,不小心将训练数据的两个维度搞重复了,那么关于NB的说法中正确的是:
a.这个被重复的特征在模型中的决定作用会被加强
b.模型效果相比无重复特征的情况下精确度会降低
c.如果所有特征都被重复一遍,得到的模型预测结果相对于不重复的情况下的模型预测结果一样。
d.当两列特征高度相关时,无法用两列特征相同时所得到的结论来分析问题
e.NB可以用来做最小二乘回归
f.以上说法都不正确
答案:BD
解析: NB的核心在于它假设向量的所有分量之间是独立的。 道题还是在考察nb算法的前提条件。
在贝叶斯理论系统中,都有一个重要的条件独立性假设:假设所有特征之间相互独立,这样才能将联合概率拆分

13.数据清理中,处理缺失值的方法是?
a.估算
b.整例删除
c.变量删除
d.成对删除
答案:ABCD
解析:由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理。常用的处理方法有:估算,整例删除,变量删除和成对删除。

估算(estimation)。最简单的办法就是用某个变量的样本均值、中位数或众数代替无效值和缺失值。这种办法简单,但没有充分考虑数据中已有的信息,误差可能较大。另一种办法就是根据调查对象对其他问题的答案,通过变量之间的相关分析或逻辑推论进行估计。例如,某一产品的拥有情况可能与家庭收入有关,可以根据调查对象的家庭收入推算拥有这一产品的可能性。  

整例删除(casewise deletion)是剔除含有缺失值的样本。由于很多问卷都可能存在缺失值,这种做法的结果可能导致有效样本量大大减少,无法充分利用已经收集到的数据。因此,只适合关键变量缺失,或者含有无效值或缺失值的样本比重很小的情况。

变量删除(variable deletion)。如果某一变量的无效值和缺失值很多,而且该变量对于所研究的问题不是特别重要,则可以考虑将该变量删除。这种做法减少了供分析用的变量数目,但没有改变样本量。

成对删除(pairwise deletion)是用一个特殊码(通常是9、99、999等)代表无效值和缺失值,同时保留数据集中的全部变量和样本。但是,在具体计算时只采用有完整答案的样本,因而不同的分析因涉及的变量不同,其有效样本量也会有所不同。这是一种保守的处理方法,最大限度地保留了数据集中的可用信息。

采用不同的处理方法可能对分析结果产生影响,尤其是当缺失值的出现并非随机且变量之间明显相关时。因此,在调查中应当尽量避免出现无效值和缺失值,保证数据的完整性。

14.机器学习中做特征选择时,可能用到的方法有?
a.卡方
b.信息增益
c.平均互信息
d.期待交叉熵
答案:ABCD
解析:在文本分类中,首先要对数据进行特征提取,特征提取中又分为特征选择和特征抽取两大类,在特征选择算法中有互信息,文档频率,信息增益,卡方检验以及期望交叉熵。
期望交叉熵,以文本分类为例子,期望交叉熵用来度量一个词对于整体的重要程度。
在ID3决策树中,也使用信息增益作为特征选择的方法,在C4.5决策树中,使用信息增益比作为特征选择的方法,在CART中,使用基尼指数作为特征选择的方法

15.在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为10w条数据,负样本只有1w条数据,以下最合适的处理方法是()
a.将负样本重复10次,生成10w样本量,打乱顺序参与分类
b.直接进行分类,可以最大限度利用数据
c.从10w正样本中随机抽取1w参与分类
d.将负样本每个权重设置为10,正样本权重为1,参与训练过程
答案:ACD
解析: 解决这类问题主要分重采样、欠采样、调整权值

1. 重采样。

A可视作重采样的变形。改变数据分布消除不平衡,可能导致过拟合。

2. 欠采样。

C的方案 提高少数类的分类性能,可能丢失多数类的重要信息。

如果1:10算是均匀的话,可以将多数类分割成为1000份。然后将每一份跟少数类的样本组合进行训练得到分类器。而后将这1000个分类器用assemble的方法组合位一个分类器。A选项可以看作此方式,因而相对比较合理。

另:如果目标是 预测的分布 跟训练的分布一致,那就加大对分布不一致的惩罚系数。

3. 权值调整。

D方案也是其中一种方式。

猜你喜欢

转载自blog.csdn.net/mingtian715/article/details/78017078