牛客网机器学习刷题错题集合1

一、有关机器学习分类算法的Precision和Recall，以下定义中正确的是（假定tp = true positive正, tn = true negative负, fp = false positive, fn = false negative）

本题分类问题，同等于检索问题（精确度==查准率，召回率==查全率）。
1、精确度对应预测正确的占预测情况中正类（真正类+假正类）的比例；（所有"正确被检索的样本(TP)"占所有"实际被检索到的样本(TP+FP)"的比例。）
2、召回率对应预测正确的占真实情况正类（真正类+假负类）的比例。（所有"正确被检索的样本(TP)"占所有"应该检索到的正确样本(TP+FN)"的比例。）

二、(不定项选择题) 以下关于正则化的描述正确的是（）

正则化可以防止过拟合、L1正则化能得到稀疏解、L2正则化约束了解空间、Dropout也是一种正则化方法。

三、在机器学习中需要划分数据集，常用的划分测试集和训练集的划分方法有哪些（）

留出法法、交叉验证法、自助法（自助抽样法）

四、隐马尔可夫模型三个基本问题以及相应的算法说法正确的是（）

评估-前向后向算法、解码-维特比算法、学习-Baum-Welch算法

五、哪些模型是分类模型

KNN、Kmeans、Logistic Regression（答案是不是有点问题）

六、影响K-均值算法的主要因素

样本输入顺序、模型相似度测试、初试类中心的选择

七、下面关于贝叶斯分类器描述错误的是（）

以贝叶斯定理为基础、是基于先验概率，推导出后验概率、可以解决有监督学习的问题、可以用极大似然估计解决贝叶斯分类器

八、下面有关序列模式挖掘算法的描述，正确的是？

1. AprioriAll算法和GSP算法都属于Apriori类算法，都要产生大量的候选序列

2. FreeSpan算法和PrefixSpan算法不生成大量的候选序列以及不需要反复扫描原数据库。

3. 在时空的执行效率上，FreeSpan比PrefixSpan更优。

1. Apriori算法 ：关联分析原始算法，用于从候选项集中发现频繁项集。两个步骤：进行自连接、进行剪枝。缺点：无时序先后性。

AprioriAll算法：AprioriAll算法与Apriori算法的执行过程是一样的，不同点在于候选集的产生，需要区分最后两个元素的前后。
AprioriSome算法：可以看做是AprioriAll算法的改进
AprioriAll算法和AprioriSome算法的比较：
（1）AprioriAll用去计算出所有的候选Ck，而AprioriSome会直接用去计算所有的候选，因为包含
，所以AprioriSome会产生比较多的候选。
（2）虽然AprioriSome跳跃式计算候选，但因为它所产生的候选比较多，可能在回溯阶段前就占满内存。
（3）如果内存占满了，AprioriSome就会被迫去计算最后一组的候选。
（4）对于较低的支持度，有较长的大序列，AprioriSome算法要好些。
2.GPS算法：类Apriori算法。用于从候选项集中发现具有时序先后性的频繁项集。两个步骤：进行自连接、进行剪枝。缺点：每次计算支持度，都需要扫描全部数据集；对序列模式很长的情况，由于其对应的短的序列模式规模太大，算法很难处理。
3.SPADE算法：改进的GPS算法，规避多次对数据集D进行全表扫描的问题。与GSP算法大体相同，多了一个ID_LIST记录，使得每一次的ID_LIST根据上一次的ID_LIST得到（从而得到支持度）。而ID_LIST的规模是随着剪枝的不断进行而缩小的。所以也就解决了GSP算法多次扫描数据集D问题。
4. FreeSpan算法：即频繁模式投影的序列模式挖掘。核心思想是分治算法。基本思想为：利用频繁项递归地将序列数据库投影到更小的投影数据库集中，在每个投影数据库中生成子序列片断。这一过程对数据和待检验的频繁模式集进行了分割，并且将每一次检验限制在与其相符合的更小的投影数据库中。
优点：减少产生候选序列所需的开销。缺点：可能会产生许多投影数据库，开销很大，会产生很多的
5. PrefixSpan 算法：从FreeSpan中推导演化而来的。收缩速度比FreeSpan还要更快些。
http://blog.csdn.net/ztf312/article/details/50889238

九、机器学习中L1正则化可以得到稀疏的权值，L2得到平滑的权值。

十、解决过拟合：增加样本数量、正则化

过拟合：获取更多训练实例；减少特征数量；增加正则化程度（拉姆达）。

欠拟合：获得更多特征；增加多项式特征；减少正则化（拉姆达）。

十一、模型中属于机器学习生成式模型的是：朴素贝叶斯、隐马尔科夫模型（HMM）、马尔科夫随机场（Marlov Random Fields）、深度信念网络（DBN）

十二、Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是:()

特征变量X的各个维度是类别条件独立随机变量。

十三、机器学习，数据预处理不需要考虑归一化：树形模型（需要：Logistic回归、svm、神经网络）

十四、一般情况，KNN最近邻在样本较小但典型性好的情况效果最好。（是不是有点问题）

牛客网机器学习刷题错题集合1

猜你喜欢