【面试】大数据基础篇(一)

0、问题大纲

一、大数据基础概念

1、大数据的特性. 
2、大数据流处理技术之间的(实现)区别和联系(*2),批处理技术呢?
3、分布式系统CAP理论,重点解释分区容错性的意义。
4、Hadoop1.x和2.x之间的区别。
5、介绍下MapReduce (*3)。
 - 追问1:MapReduce中间有个combine是干嘛,有什么好处,有什么使用限制吗?
 - 追问2:拿MapReduce join两个表 说一下流程
 - 追问3:敲代码:用mr实现top10
6、HA HDFS ZooKeeper什么作用,为什么要ZooKeeper?(*2

一、大数据基础概念

1、大数据的特性

答:4V:Volume、Variety、Value和Velocity,即体量大、多样性、价值密度低、速度快。
1

2、大数据流处理技术之间的(实现)区别和联系(*2),批处理技术呢?
仅批处理 仅流处理 混合
Hadoop Storm、Samza Spark、Flink

批处理针对大容量静态数据集,处理完返回结果。其数据集特征为有界、持久、大量

流处理会对实时数据进行计算,无需操作整个数据集,而是操作传输的每个数据项。其数据集是“无边界”。

Spark可提供高速批处理和微批处理模式的流处理,Flink的批处理很大程度是对流处理的扩展,此时不再从持续流中读取,而是从持久存储中读取有边界数据集。
生态圈-组件

3、分布式系统CAP理论,重点解释分区容错性的意义。
  1. 内容:分布式系统读写操作时,只能保证一致性(Consistence)、可用性(Availability)、分区容错性(Partition Tolerance)三者中的两个,另外一个必须被牺牲。

  2. 可能

  • CP(一致性+分区容忍性)
    3

Node1节点和Node2节点连接中断导致分区现象,Node1数据已更新为y,这时Node1—Node2复制通道中断,数据y无法同步到Node2,Node2节点数据还是旧数据。
这时客户端C访问Node2是,Node2需要返回Error,提示客户端“系统现在发生了错误”,这种处理方式违背了A–可用性要求。

  • AP(可用性+分区容忍性)
    4

Node2数据是旧的x,这时客户端访问Node2时,Node2将当前自己拥有数据x返回给客户端,而实际上当前最新数据已经是y了,这就不满足C—一致性的要求了,因此CAP三者只能满足AP。

4、Hadoop1.x和2.x之间的区别

1)架构改进:核心组件MapReduce和HDFS的架构改进。
2)组件丰富:加入了Pig、 Tez、 Spark和Kafka等新组件
2

5、介绍下MapReduce (*3)

答:MapReduce是针对大批量工作的计算模型,采用分治的思想,先将数据分解(Map),然后再合并成最终结果(Reduce)。

扫描二维码关注公众号,回复: 12816357 查看本文章
追问1:MapReduce中间有个combiner是干嘛,有什么好处,有什么使用限制吗?

答:Combiner是对map任务的输出进行局部汇总,以减少网络传输。

追问2:拿MapReduce join两个表说一下流程。

答:
1)reduce side join:在map阶段,map函数同时读取两个文件file1和file2,为区分两种来源key/value数据对,对每条数据打一个标签(tag).
2)map side join:map side是针对大小表连接的场景,小表可以直接放到内存中,这样可以将小表复制多份,让每个map task内存中存放一份,然后只扫描大表;对于大表中的每一条记录key/value,在hash table中查找是否有相同的key,如果有,则连接后输出即可。

追问3:敲代码:用mr实现top10

答:可以自定义groupingcomparator,对结果进行最大值排序,然后再reduce输出,只输出前10个数即可。

代码:待补充……
6、HA HDFS ZooKeeper什么作用,为什么要ZooKeeper?(*2)

答:Zookeeper保证在Active NameNode失效时及时将Standby NameNode修改为Active状态,解决了单点故障问题。

二、参考

1、2020大数据面试题真题总结(附答案)
2、全面解析大数据框架的区别
3、大数据框架对比:Hadoop、Storm、Samza、Spark和Flink
4、分布式处理之MapReduce
5、Hadoop 面试,有它就够了
6、Hadoop 相关面试题总结
7、大数据Hadoop面试题(三)——MapReduce
8、zookeeper在Hadoop集群中的作用(一)
9、大数据Hadoop生态圈-组件介绍

猜你喜欢

转载自blog.csdn.net/HeavenDan/article/details/112284642