BAT机器学习面试题1000题(326~330题)

640?wx_fmt=png&wxfrom=5&wx_lazy=1

《BAT机器学习面试1000题》系列作为国内首个AI题库,囊括绝大部分机器学习和深度学习的笔试面试题、知识点,可以作为机器学习自测题,也可以当做查漏补缺的资料库。七月在线AI题库见“阅读原文”。

326.下面关于Hive的说法正确的是( )

A. Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文本映射为一张数据库表,并提供简单的SQL查询功能

B. Hive可以直接使用SQL语句进行相关操作

C. Hive能够在大规模数据集上实现低延迟快速的查询

D. Hivez在加载数据过程中不会对数据进行任何的修改,只是将数据移动到HDFS中Hive设定的目录下


正确答案:A

Hive使用类sql语句进行相关操作,称为HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

Hive 构建在基于静态批处理的Hadoop 之上,Hadoop 通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此,Hive 并不能够在大规模数据集上实现低延迟快速的查询,例如,Hive在几百MB 的数据集上执行查询一般有分钟级的时间延迟。

扫描二维码关注公众号,回复: 5230058 查看本文章

Hive 并不适合那些需要低延迟的应用,例如,联机事务处理(OLTP)。Hive 查询操作过程严格遵守Hadoop  MapReduce 的作业执行模型,Hive 将用户的HiveQL    语句通过解释器转换为MapReduce 作业提交到Hadoop  集群上,Hadoop  监控作业执行过程,然后返回作业执行结果给用户。Hive 并非为联机事务处理而设计,Hive    并不提供实时的查询和基于行级的数据更新操作。Hive 的最佳使用场合是大数据集的批处理作业,例如,网络日志分析。


327.关于input split和block的描述正确的是( )

A. Mapreduce 的input split就是一个block

B. input split是一种记录的逻辑划分,而block是对输入数据的物理分割,两者之间有着本质的区别

C. 由于Block是本地的,DFSCline可以不用向DataNode建立连接,直接读磁盘上的文件

D. 为了发挥计算本地化性能,应该尽量使inputSplit大小与block大小相当


正确答案:B

1. 一个split不会包含零点几或者几点几个Block,一定是包含大于等于1个整数个Block 

2. 一个split不会包含两个File的Block,不会跨越File边界 

3. split和Block的关系是一对多的关系 

4. maptasks的个数最终决定于splits的长度


328.推导朴素贝叶斯分类 P(c|d),文档 d(由若干 word 组成),求该文档属于类别 c 的概率, 并说明公式中哪些概率可以利用训练集计算得到。

根据贝叶斯公式P(c|d)=(P(c)P(d|c)/P(d))。

这里,分母P(d)不必计算,因为对于每个类都是相等的。 分子中,P(c)是每个类别的先验概率,可以从训练集直接统计,

P(d|c)根据独立性假设,可以写成如下 P(d|c)=¥P(wi|c)(¥符号表示对d中每个词i在c类下概率的连乘),

P(wi|c)也可以从训练集直接统计得到。 至此,对未知类别的d进行分类时,类别为c=argmaxP(c)¥P(wi|c)。


329.逻辑回归与多元回归分析有哪些不同?

A. 逻辑回归预测某事件发生的概率
B. 逻辑回归有较高的拟合效果
C. 逻辑回归回归系数的评估
D. 以上全选

答案:D
逻辑回归是用于分类问题,我们能计算出一个事件/样本的概率;一般来说,逻辑回归对测试数据有着较好的拟合效果;建立逻辑回归模型后,我们可以观察回归系数类标签(正类和负类)与独立变量的的关系。


330."过拟合是有监督学习的挑战,而不是无监督学习"以上说法是否正确:
A. 正确
B. 错误

答案:B
我们可以评估无监督学习方法通过无监督学习的指标,如:我们可以评估聚类模型通过调整兰德系数.


向公号后台回复以下文字获得

回复:思维导图 获得Python学习必备思维导图电子版

回复:量化交易 获得量化投资编程课程与资料

回复:实验     获得20+开源小实验,真枪实战体验AI之趣

回复:BAT      获得BAT机器学习往期面试题

回复:题库     获得人工智能面试题库!


640?wx_fmt=png


640?wx_fmt=gif提高学习效率,颠覆传统刷题!

猜你喜欢

转载自blog.csdn.net/T7SFOKzorD1JAYMSFk4/article/details/79267135