题库1

1.

对于以下代码,char* p=new char[100]; 

正确的是(p在栈上,new出来的在堆上)。

p是一个指针,所以存储在栈上,p中存储的是新建的动态内存的地址,新建的动态内存在堆上。
 
2.一个有偏的硬币,抛了100次,出现1次人头,99次字。问用最大似然估计(ML)和最小均方误差(LSE)估计出现人头的概率哪个大?
 
3.字符串"//^▽^//\n"的长度是 (8)。
//这里指的是两个字符,\n是转义字符,一个字符
 
4.WHERE在数据分组前进行过滤,HAVING在数据分组后进行过滤。当where和having都可以时, 显然where查询效率更高。
 
5.下列哪个不属于CRF模型对于HMM和MEMM模型的优势 (D)
A.特征灵活 B.速度快 C.可容纳较多上下文信息 D.全局最优

1)CRF没有HMM那样严格的独立性假设条件,因而可以容纳任意的上下文信息。特征设计灵活(与ME一样) ————与HMM比较
2)同时,由于CRF计算全局最优输出节点的条件概率,它还克服了最大熵马尔可夫模型标记偏置(Label-bias)的缺点。 ­­————与MEMM比较
3)CRF是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。
————与ME比较
缺点:训练代价大、复杂度高。

 6.有两个样本点,第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3)
,从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是 (D)
A.2x+y=4 B.x+2y=5 C.x+2y=3 D.以上都不对

????????????

7.下面关于ID3算法中说法错误的是()

A.ID3算法要求特征必须离散化
B.信息增益可以用熵,而不是GINI系数来计算
C.选取信息增益最大的特征,作为树的根节点
D.ID3算法是一个二叉树模型

ID3 算法生成的决策树是一棵多叉树,分支的数量取决于分裂属性有多少个不同的取值。 

ID3算法(Iterative Dichotomiser 3 迭代二叉树3代)是一个由Ross Quinlan发明的用于决策树算法。可以归纳为以下几点:
  1. 使用所有没有使用的属性并计算与之相关的样本熵值
  2. 选取其中熵值最小的属性
  3. 生成包含该属性的节点
D3算法对数据的要求:

    1) 所有属性必须为离散量;

    2) 所有的训练例的所有属性必须有一个明确的值;

    3) 相同的因素必须得到相同的结论且训练例必须唯一。

8.SPSS中,数据整理的功能主要集中在(数据和转换 )等菜单中。

9..excel工作簿a中有两列id、age,工作簿b中有一列id,需要找到工作薄b中id对应的age,可用的函数包括(index+match 和 vlookup)

INDEX: 函数返回表格或区域中的值或值的引用 .
 
MATCH: 在范围单元格中搜索特定的项 , 然后返回该项在此区域中的相对位置 .
 
VLOOKUP&HLOOKUP: 

如果查找范围的数据是纵向的,即,A列是姓名,B列是成绩,你要找姓名对应的成绩就用VLOOKUP  V代表垂直

如果查找范围的数据是横向的,即,第一行是姓名,第二行是成绩,你要找姓名对应的成绩就用HLOOKUP  H代表水平

 
FIND: 返回一个字符串在另一个字符串中出现的起始位置 ( 区分大小写 ).
 
IF: 可以对值和期待值进行逻辑比较 .
 
LIKE: 可用Like运算符自定义字符比较函数之类的, 应该是VBA的函数.
 
10. 随机无放回抽样跟随机有放回抽样比较, (有)放回抽样方差大。

?????????是一次抽样的样本方差,还是多次抽样的抽样结果方差

12.常采用特征选择方法。常见的六种特征选择方法:

  1. DF(Document Frequency) 文档频率
    DF:统计特征词出现的文档数量,用来衡量某个特征词的重要性

  2. MI(Mutual Information) 互信息法
    互信息法用于衡量特征词与文档类别直接的信息量。
    如果某个特征词的频率很低,那么互信息得分就会很大,因此互信息法倾向”低频”的特征词。
    相对的词频很高的词,得分就会变低,如果这词携带了很高的信息量,互信息法就会变得低效。

  3. (Information Gain) 信息增益法
    通过某个特征词的缺失与存在的两种情况下,语料中前后信息的增加,衡量某个特征词的重要性。

  4. CHI(Chi-square) 卡方检验法
    利用了统计学中的”假设检验”的基本思想:首先假设特征词与类别直接是不相关的
    如果利用CHI分布计算出的检验值偏离阈值越大,那么更有信心否定原假设,接受原假设的备则假设:特征词与类别有着很高的关联度。

  5. WLLR(Weighted Log Likelihood Ration)加权对数似然

  6. WFO(Weighted Frequency and Odds)加权频率和可能性

13.隐马尔可夫模型三个基本问题以及相应的算法说法正确的是(A/B/C)

A.评估—前向后向算法
B.解码—维特比算法
C.学习—Baum-Welch算法
D.学习—前向后向算法

14.下列方法中,可以用于特征降维的方法包括(都可以)

主成分分析PCA
线性判别分析LDA
深度学习SparseAutoEncoder(稀疏自编码)
矩阵奇异值分解SVD
AutoEncoder的结构与神经网络的隐含层相同,由输入L1,输出 L2组成,中间则是权重连接。Autoencoder通过L2得到输入的重构L3,最小化L3与L1的差别 进行训练得到权重。在这样的权重参数下,得到的L2可以尽可能的保存L1的信息。
Autoencoder的输出L2的维度由输出的神经元个数决定。当输出维度大于L1时,则需要在训练目标函数中加入sparse 惩罚项,避免L2直接复制L1(权重全为1)。所以称为sparseAutoencoder( Andrew Ng提出的)。
结论:当隐藏层的神经元数目比输入的少的时候,是对高维输入数据进行压缩表示,起到降维的作用。

15.下列哪些方法可以用来对高维数据进行降维 (都可以)

LASSO
主成分分析法
聚类分析
小波分析法
线性判别法
拉普拉斯特征映射








 
 

猜你喜欢

转载自www.cnblogs.com/mindyhuang/p/9782435.html