一个月刷完机器学习笔试题300题（2）

第二天

1、一个二进制源X发出符号集为{-1,1}，经过离散无记忆信道传输，由于信道中噪音的存在，接收端Y收到符号集为{-1,1,0}。已知P(x=-1)=1/4，P(x=1)=3/4，P(y=-1|x=-1)=4/5，P(y=0|x=-1)=1/5，P(y=1|x=1)=3/4，P(y=0|x=1)=1/4，求条件熵H(Y|X)（）
A
0.2375
B
0.3275
C
0.5273
D
0.5372
正确答案是：A
由H(Y|X)= -∑P(X,Y)logP(Y|X)= -∑P(Y|X)P(X)logP(Y|X)，将(y=-1,x=-1), (y=0,x=-1), (y=1,x=1), (y=0,x=1)四种情况带入公式求和，得到H(Y|X)≈-(-0.01938-0.03495-0.07028-0.11289)=0.2375。

2、Fisher线性判别函数的求解过程是将M维特征矢量投影在（）中进行求解。
A
M-1维空间
B
一维空间
C
三维空间
D
二维空间
正确答案是： B
Fisher线性判别函数是将多维空间中的特征矢量投影到一条直线上，也就是把维数压缩到一维。寻找这条最优直线的准则是Fisher准则：两类样本在一维空间的投影满足类内尽可能密集，类间尽可能分开，也就是投影后两类样本均值之差尽可能大，类内部方差尽可能小。一般而言，对于数据分布近似高斯分布的情况，Fisher线性判别准则能够得到很好的分类效果。
3、类域界面方程法中，不能求线性不可分情况下分类问题近似或精确解的方法是（）
A
势函数法
B
基于二次准则的H-K算法
C
伪逆法
D
感知器算法
正确答案是：D
线性分类器的设计就是利用训练样本集建立线性判别函数式，也就是寻找最优的权向量的过程。求解权重的过程就是训练过程，训练方法的共同点是，先给出准则函数，再寻找是准则函数趋于极值的优化方法。ABC方法都可以得到线性不可分情况下分类问题近似解。感知器可以解决线性可分的问题，但当样本线性不可分时，感知器算法不会收敛。
4、下列哪个不属于CRF模型对于HMM和MEMM模型的优势
A
特征灵活
B
速度快
C
可容纳较多上下文信息
D
全局最优
正确答案是： B
HMM模型是对转移概率和表现概率直接建模，统计共现概率。而MEMM模型是对转移概率和表现概率建立联合概率，统计时统计的是条件概率。CRF是在给定需要标记的观察序列的条件下，计算整个标记序列的联合概率分布，而不是在给定当前状态条件下，定义下一个状态的状态分布。MEMM容易陷入局部最优，是因为MEMM只在局部做归一化。CRF模型中，统计了全局概率，在做归一化时，考虑了数据在全局的分布，而不是仅仅在局部归一化，这样就解决了MEMM中的标记偏置的问题。
CRF没有HMM那样严格的独立性假设条件，因而可以容纳任意的上下文信息，特征设计灵活。CRF需要训练的参数更多，与MEMM和HMM相比，它存在训练代价大、复杂度高的缺点。
5、Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是（）
A
各类别的先验概率P©是相等的
B
以0为均值，sqr(2)/2为标准差的正态分布
C
特征变量X的各个维度是类别条件独立随机变量
D
P(X|C)是高斯分布
正确答案：C
朴素贝叶斯的基本假设就是每个变量相互独立。
6、在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可用以下哪种方法直接进行参数估计（）
A
EM算法
B
维特比算法
C
前向后向算法
D
极大似然估计
正确答案是：D
EM算法：只有观测序列，无状态序列时来学习模型参数，即Baum-Welch算法
维特比算法：用动态规划解决HMM的预测问题，不是参数估计
前向后向算法：用来算概率
极大似然估计：即观测序列和相应的状态序列都存在时的监督学习算法，用来估计参数
注意的是在给定观测序列和对应的状态序列估计模型参数，可以利用极大似然发估计。如果给定观测序列，没有对应的状态序列，才用EM，将状态序列看不不可测的隐数据。
7、假定某同学使用Naive Bayesian（NB）分类模型时，不小心将训练数据的两个维度搞重复了，那么关于NB的说法中不正确的是？
A
模型效果相比无重复特征的情况下精确度会降低
B
如果所有特征都被重复一遍，得到的模型预测结果相对于不重复的情况下的模型预测结果一样
C
当两列特征高度相关时，无法用两列特征相同时所得到的结论来分析问题
正确答案是： B
朴素贝叶斯的条件就是每个变量相互独立。在贝叶斯理论系统中，都有一个重要的条件独立性假设：假设所有特征之间相互独立，这样才能将联合概率拆分。

此外，若高度相关的特征在模型中引入两次, 这样增加了这一特征的重要性, 则它的性能因数据包含高度相关的特征而下降。正确做法是评估特征的相关矩阵，并移除那些高度相关的特征。
8、以下哪些方法不可以直接来对文本分类？
A
Kmeans
B
决策树
C
支持向量机
D
KNN
正确答案：A
Kmeans是聚类方法，典型的无监督学习方法。分类是监督学习方法，BCD都是常见的分类方法。
9、已知一组数据的协方差矩阵P,下面关于主分量说法错误的是（）
A
主分量分析的最佳准则是对一组数据进行按一组正交基分解, 在只取相同数量分量的条件下,以均方误差计算截尾误差最小
B
在经主分量分解后,协方差矩阵成为对角矩阵
C
主分量分析就是K-L变换
D
主分量是通过求协方差矩阵的特征值得到
正确答案是：C
K-L变换与PCA变换是不同的概念，PCA的变换矩阵是协方差矩阵，K-L变换的变换矩阵可以有很多种（二阶矩阵、协方差矩阵、总类内离散度矩阵等等）。当K-L变换矩阵为协方差矩阵时，等同于PCA。
10、关于logit 回归和SVM 不正确的是（）
A
Logit回归本质上是一种根据样本对权值进行极大似然估计的方法，而后验概率正比于先验概率和似然函数的乘积。logit仅仅是最大化似然函数，并没有最大化后验概率，更谈不上最小化后验概率。
B
Logit回归的输出就是样本属于正类别的几率，可以计算出概率。
C
SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面，应该属于结构风险最小化。
D
SVM可以通过正则化系数控制模型的复杂度，避免过拟合。
正确答案是：A
Logit回归目标函数是最小化后验概率，Logit回归可以用于预测事件发生概率的大小，SVM目标是结构风险最小化，SVM可以有效避免模型过拟合。

一个月刷完机器学习笔试题300题（2）

第二天

猜你喜欢