牛客《机器学习》习题收集整理

牛客习题讲解收集(以下数据均来自牛客网):
01.关于 logit 回归和 SVM 不正确的是()
A.Logit回归目标函数是最小化后验概率
B.Logit回归可以用于预测事件发生概率的大小
C.SVM目标是结构风险最小化
D.SVM可以有效避免模型过拟合
解析:答案:A
A. Logit回归本质上是一种根据样本对权值进行极大似然估计的方法,而后验概率正比于先验概率和似然函数的乘积。logit仅仅是最大化似然函数,并没有最大化后验概率,更谈不上最小化后验概率。A错误 B. Logit回归的输出就是样本属于正类别的几率,可以计算出概率,正确 C. SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,应该属于结构风险最小化,严格来说也是错误的。 D. SVM可以通过正则化系数控制模型的复杂度,避免过拟合。
Logit回归主要是用来计算一个事件发生的概率,即该事件发生的概率与该事件不发生的概率的比值。而最小化后验概率是朴素贝叶斯算法要做的,混淆了概念。

02.在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题()
A.增加训练集量
B.减少神经网络隐藏层节点数
C.删除稀疏的特征
D.SVM算法中使用高斯核/RBF核代替线性核
解析:答案:D
一般认为,增加隐层数可以降低网络误差(也有文献认为不一定能有效降低),提高精度,但也使网络复杂化,从而增加了网络的训练时间和出现“过拟合”的倾向, svm高斯核函数比线性核函数模型更复杂,容易过拟合

径向基(RBF)核函数/高斯核函数的说明
这个核函数可以将原始空间映射到无穷维空间。对于参数 ,如果选的很大,高次特征上的权重实际上衰减得非常快,实际上(数值上近似一下)相当于一个低维的子空间;反过来,如果选得很小,则可以将任意的数据映射为线性可分——当然,这并不一定是好事,因为随之而来的可能是非常严重的过拟合问题。不过,总的来说,通过调整参数 ,高斯核实际上具有相当高的灵活性,也是 使用最广泛的核函数 之一。

03.机器学习中做特征选择时,可能用到的方法有?
A.卡方
B.信息增益
C.平均互信息
D.期望交叉熵

答案: A B C D
在文本分类中,首先要对数据进行特征提取,特征提取中又分为特征选择和特征抽取两大类,在特征选择算法中有互信息,文档频率,信息增益,卡方检验以及期望交叉熵。
期望交叉熵,以文本分类为例子,期望交叉熵用来度量一个词对于整体的重要程度。
在ID3决策树中,也使用信息增益作为特征选择的方法,在C4.5决策树中,使用信息增益比作为特征选择的方法,在CART中,使用基尼指数作为特征选择的方法

特征提取算法
特征提取算法分为特征选择和特征抽取两大类
特征选择
一。常采用特征选择方法。常见的六种特征选择方法:
1).DF(Document Frequency) 文档频率
DF:统计特征词出现的文档数量,用来衡量某个特征词的重要性
2).MI(Mutual Information) 互信息法
互信息法用于衡量特征词与文档类别直接的信息量。如果某个特征词的频率很低,那么互信息得分就会很大,因此互信息法倾向”低频”的特征词。相对的词频很高的词,得分就会变低,如果这词携带了很高的信息量,互信息法就会变得低效。

3).(Information Gain) 信息增益法
通过某个特征词的缺失与存在的两种情况下,语料中前后信息的增加,衡量某个特征词的重要性。

4).CHI(Chi-square) 卡方检验法
利用了统计学中的”假设检验”的基本思想:首先假设特征词与类别直接是不相关的
如果利用CHI分布计算出的检验值偏离阈值越大,那么更有信心否定原假设,接受原假设的备则假设:特征词与类别有着很高的关联度。

5).WLLR(Weighted Log Likelihood Ration)加权对数似然
6).WFO(Weighted Frequency and Odds)加权频率和可能性

二。特征抽取(降维):PCA等

04.在统计模式识分类问题中,当先验概率未知时,可以使用()?

A.最小损失准则
B.N-P判决
C.最小最大损失准则
D.最小误判概率准则

正确答案: B C
对于选项A:最小损失准则中需要用到先验概率
对于选项B:
在贝叶斯决策中,对于先验概率p(y),分为已知和未知两种情况。
1. p(y)已知,直接使用贝叶斯公式求后验概率即可;
2. p(y)未知,可以使用聂曼-皮尔逊决策(N-P决策)来计算决策面。
聂曼-皮尔逊决策(N-P判决)可以归结为找阈值a,即:
如果p(x|w1)/p(x|w2)>a,则 x属于w1;
如果p(x|w1)/p(x|w2)

猜你喜欢

转载自blog.csdn.net/zhenaoxi1077/article/details/80048426