机器学习----面试题目总结（一）

以下题目来自：微信公众号（人工智能头条）

你在简历中提到曾经构建过一个文档挖掘系统，你都做了哪些工作？能否在主题建模（topic modeling）中使用LDA技术实现文档聚类？
假设你有数百兆字节的数据文件，这其中包括PDF文件、文本文件、图像、扫描的PDF文件等等，请你给出一个分类方案。
你如何阅读扫描版pdf文件或图像格式的书面文件的内容？
朴素贝叶斯为什么被称为“朴素”？
请详细介绍一下朴素贝叶斯分类器。
什么是深度学习？深度学习和机器学习的区别是什么？在无监督学习中，如何进行文件聚类？
如何找到与某些查询语句/搜索相关的文件？
解释下TF-IDF技术。
根据我的经验来看，TF-IDF技术在文件分类或聚类上效果并不好，你将如何改进？
什么是长短期记忆神经网络（LSTM）?解释下其工作原理。
什么是word2vec模型？
解释下python中的可变对象和不可变对象。
你在python中使用过什么数据结构？
如何使用不平衡数据集（ unbalanced dataset）处理多类别的分类问题？
你如何从一个文本语句中进行语言识别？
如何表示中文或日文中的象形字符？
如何设计一个聊天机器人？(我没什么想法，但我尝试用基于TF-IDF相似性的意图和反馈来回答这个问题。 )
能否使用循环神经网络设计一个聊天机器人来对输入的问题进行意图和回答响应。
假设你在Reddit数据集上使用循环神经网络或长短时记忆神经网络设计了一个聊天机器人，它能够提供10种可能的回复，如何选择最佳回复，或者说如何删除其他的回复？
解释一下支持向量机（SVM）如何学习非线性边界。
什么是精确率（precision）和召回率（recall）？在医疗诊断中，你认为哪个更重要？
解释一下精确率和召回率。
如何绘制受试者工作特征曲线（ROC曲线）？ROC曲线下面积是什么意思？
如何为多类别分类任务绘制ROC曲线？
列举多类别分类任务其他的度量标准。
什么是灵敏度（sensitivity）和特异度（specificity）？
随机森林中的“随机”指什么？
如何进行文本分类？
如何确定已经学会了一个文本？没有TF-IDF技术是不是不可能实现？（我回答说使用n-gram模型（n＝1，2，3，4），并使用TF-IDF技术创建一个长的计数向量）
你还能利用机器学习做些什么？（我建议将长短期记忆神经网络和word2vec结合起来，或者是一维循环神经网络与word2vec结合起来，进行分类。但面试官希望改进基于机器学习的算法。）
当神经网络由线性节点构成时，神经网络如何学习非线性形状？它学习非线性边界的原因是什么？
训练决策树时，其参数是什么？
在决策树的某个节点处进行分割，其分割标准是什么？
基尼系数的计算公式是什么？
熵的计算公式是什么？
决策树如何决定在哪个特征处必须进行分割？
如何利用数学计算收集来的信息？
简述随机森林的优点。
简述boosting算法。
梯度提升算法（gradient boosting）是怎样工作的？
简述AdaBoost算法工作原理。
SVM中用到了哪些内核？SVM的优化技术有哪些？
SVM如何学习超平面？论述下其数学运算细节。
谈一谈无监督学习？都有哪些算法？
如何定义K-Means聚类算法中K的值？
列举至少3中定义K-Means聚类算法中K的方法。
除此之外你还知道哪些聚类算法？
介绍一下DB-SCAM算法。
简述下分层凝聚聚类（Hierarchical Agglomerativeclustering）的工作原理。
解释一下主成分分析算法（PCA），简述下使用PCA算法的数学步骤。
20.使用 PCA算法有哪些缺点？
谈谈卷积神经网络的工作原理？详细说明其实现细节。
解释一下卷积神经网络中的反向传播。
你如何部署机器学习模型？
我们大部分情况下都要用C++从零开始搭建一个机器学习模型，这一点你能做到吗？
Sigmoid 函数的范围是什么？
说出scikit-learn能够实现逻辑回归的包的名称。
标准正态分布的均值和方差分别是多少？
你在Python中都使用什么数据结构？
文本分类的方法有哪些？你会怎么做分类？
解释TF-IDF技术及其缺点，如何克服TF-IDF的缺点？
什么是双词搭配(Bigrams)和三词搭配(Trigrams）？用一个文本语句解释一下双词搭配和三词搭配的TF-IDF技术。
举例说明word2vec有哪些应用。
如何设计一个神经网络？如何做到“深度”？这是一个基础的神经网络问题。
简述LSTM的工作原理。它是如何记住文本的？
什么是朴素贝叶斯分类器？
抛10次硬币，4次是正面的概率是多少？
如何获取Python列表中元素的索引？
如果合并两个pandas数据集？
从用户行为来看，你需要模拟一个欺诈活动，你会如何解决这个问题？这是可能是一个异常检测问题或分类问题！
决策树和随机森林，你更喜欢哪一个？
逻辑回归和随机森林有什么区别？
你会用决策树还是随机森林来解决分类问题？随机森林有什么优点？
在不平衡数据集中，你会选择什么模型：随机森林还是Boosting？为什么？
你所了解的Boosting技术有哪些？
采用监督学习解决分类问题，你会选择哪个模型？假设有 40-50个分类！
你怎样使用合奏（Ensemble）技术？
简述支持向量机（SVM）的工作原理。
什么是Kernel？简单介绍一下。
如何实现非线性回归？
什么是Lasso回归和Ridge回归？
你在简历上提到曾经做过演讲中的发音识别，具体来讲讲你的实现方法是什么？
什么是梅尔频率倒谱（MFCCs）？
什么是高斯混合模型，它是如何完成聚类的？
如何实现期望最大化？讲讲其实现步骤。
GMM模型中的概率如何计算？
在进行发音识别时，你是如何为GMM-UBM技术执行MAP调整的？
谈谈你所用的I-vector技术。
在分析语境时，主要因素是什么？
JFA和I-vector的区别是什么？为什么选择I-vector而不是JFA？
你有没有用过PLDA I-vector技术吗？
有没有读过百度的Deep Speaker论文？
如果有两个模型可供你选择，你选择的依据是什么？（考察模型选择的技术）
简述下贝叶斯信息度量（BIC）和赤池信息量（AIC）的数学工作原理。
贝叶斯信息度量和赤池信息量的工作原理是什么？
如果MFCC特征向量矩阵中的数据发生丢失，应该怎么办？
如何进行语音辨识？有什么特点？
你的分类器是语音和音乐的分类器，还是语音和非语音的分类器？
深度神经网络是如何应用在语音分析中的？

机器学习----面试题目总结（一）

猜你喜欢