1.设某棵三叉树中有36个节点,则该三叉树的最小高度是( )
A. 3 B. 4 C. 5 D. 6
2.一颗高度为4 的平衡二叉树,其最少节点数为( )
A. 5 B. 6 C. 7 D. 8
3.以下哪些是判别式模型( )
A. 最大熵 B. 决策树 C. 条件随机场 D. 朴素贝叶斯
4.以下哪些算法可以用来降维( )
A. Latent Dirichlet Allocation
B. Word2Vec
C. Principal component analysis
D. Auto Encoder
5.下列哪些优化算法主要用来解无约束优化问题( )
A .随机梯度下架
B .LBFGS
C .共轭梯度法
D .SMO
E .拟牛顿法
6.以下哪种模型不适合序列标注问题( )
A. Recurrent Neural Network
B. Conditional Random Field
C. Convolution Neural Network
D. Hidden Markov model
7.【单选】下面哪个不是神经网络的激活函数?( )
A. sigmoid B. ReLU C. 反正切tanh D. 交叉熵CE
8.以下说法正确的是( )
A .机器学习中使用L2正则化可以得到平滑的权值
B .在AdaBoost算法中,所有被错分的样本的权重更新比例相同。
C .Boosting和Bagging都是组合多个分类器投票的方法,二者都是根据单个分类器的正确率决定其权重。
D .梯度下降有时会陷于局部极小值,但EM算法不会。
E .在核回归中,最影响回归的过拟合性和欠拟合之间平衡的参数为核函数的宽度。
9.下面哪种STL容器的实现和其它三个不一样( )
A. set B. deque C. multimap D. map
10.以下哪些是防止过拟合可以采用的方法?( )
A .使用正则化项
B .扩增测试数据集
C .决策树模型剪枝
D .early stop
11.当用户使用稀疏特征进行训练时,对于离散特征缺省值应该如何处理效果较好( )
A. 直接删除该特征 B. 对缺省值付给一个全新值来标记 C. 当零处理直接忽略 D. 使用平均值代替
12.现有一段文本,其中只有A,B,C,D,E包含五个字母,它们出现的次数分别是A出现1次,B出现2次,C出现10次,D出现6次,E出现4次,那么经过哈弗曼编码后,各个字母对应的编码可能是下面哪一组?( )
A. A=1101,B=1100,C=0,D=10,E=110
B. A=1100,B=1101,C=0,D=10,E=111
C. A=1111,B=1101,C=10,D=0,E=110
D .A=1101,B=1100,C=10,D=0,E=111
13.在电影票房预测工作中,假如使用梯度下降优化均方差损失函数,并且希望模型训练效更偏重于票房较大的电影样本,不能实现这个目的的操作是:( )
A.在训练数据中直接复制大票房电影的数据
B.修改损失函数,使其偏重大票房电影的误差
C.增加大票房电影独有的特征,例如访问流量是否大于一定阈值
D.针对大票房数据,在训练时增加学习步长
14.以下哪种不是非稳定排序算法( )
A.归并排序 B.快速排序 C.堆排序 D.希尔排序
15.一共三个结点的二叉树可能出现多少种结构( )
A. 3 B. 4 C .5 D. 6
16.设有一个栈,元素一次进栈的顺序是A,B,C,D,E。下列可能的出栈顺序有?( )
A .ABCED
B .EABCD
C .BCDAE
D .EDCBA
17."同事去美团上班,自己开车,滴滴拼车,滴滴快车,骑滑板车的概率分别是0.3,0.2,0.1,0.4,各种方式迟到的概率分别1/4,1/3,1/12,0,下列语句中正确的是"( )
A .如果他准点,那么骑滑板车的概率大于等于0.5
B .单人出行(自己开车或者滴滴快车)准点机会比滴滴拼车要低
C .如果他迟到,自己开车的概率是0.5
D .如果他准点,使用滴滴的概率等于自己开车的概率
18.HMM的无监督训练方法是?( )
A. EM算法 B. viterbi算法 C. 前向-后向算法 D. 梯度下降算法
19.以下关于经典的k-means聚类的说法哪个是错误的?( )
A .k-means聚类算法是全局收敛的
B .k-means的聚类结果和初始聚类中心点的选取有关
C .k-means聚类算法的时间复杂度是O(NKT),其中N为样本个数,K为聚类团数量,T为迭代次数
D .k-means聚类算法无法自动确定聚类团数量
20.逻辑回归的损失函数是?( )
A .log对数损失函数
B .平方损失函数
C .指数损失函数
D .Hinge损失函数
E .0-1损失函数
21.机器学习中能够用于指导特征选择的指标( )
A .信息增益 B.信息增益率 C.基尼系数 D.信息熵
22.美团点评是大家吃喝玩乐的生活好帮手: 比如大家搜索”7天连锁酒店”,会返回一系列相关的结果。如果要识别这句话的商家核心词-“7天”,以下哪种方法识别商家核心词准确率最低,不能直接使用?( )
A.通过分析用户搜索日志,人工制定模板或规则来识别
B.标注一些数据,抽取特征,用CRF训练出模型来识别
C.使用word2vec训练词向量,对词聚类,根据词属于的类别来识别
D.人工整理商家核心词词表,按是否命中词表里的词来识别
23.以下哪些主要用于无监督的深度学习网络( )
A .Restricted Boltzmann Machines
B .AutoEncoder
C .Deep Belief Networks
D .Recurrent Neural Network
24.假定一个二维数组的定义语句为“int a[3][4]={{3,9},{2,8,5}};”,则元素a[1][2]的值为( )
A.5 B. 4 C. 2 D. 8
25.以下两种描述分别对应哪两种对分类算法的评价标准?( )
① 美团推荐的餐厅有多少是用户喜欢的
② 用户喜欢的餐厅有多少被美团推荐了
A .Precision, Recall
B .Recall, Precision
C .Precision, AUC
D .Recall, AUC
26.下列说正确的是?( )
A.回归函数A和B,如果A比B更简单,则A几乎一定会比B在测试集上表现更好
B.梯度下降有时会陷于局部极小值,但EM算法不会
C.在AdaBoost算法中,所有被错分的样本的权重更新比例相同
D.当训练数据较少时更难发生过拟合
27.下面那个不是序列标注模型?( )
A .HMM B .ME(最大熵) C .MEMM D .CRF
28.快速排序的最坏时间复杂度是?( )
A. O(lgN) B.O(N) C. O(NlogN) D. O(N*N)
参考答案:https://download.csdn.net/download/weixin_39813541/11168587