高精尖面试题（五）

Spark Join的优化经验

Spark和flink的区别

Kafka和传统的MQ之间的区别

1.架构模型方面

RabbitMQ遵循AMQP协议，RabbitMQ的brokerExchange,Binding,queue组成，其中exchange和binding组成了消息的路由键；客户端Producer通过连接channel和server进行通信，Consumer从queue获取消息进行消费（长连接，queue有消息会推送到consumer端，consumer循环从输入流读取数据）。rabbitMQ以broker为中心；有消息的确认机制。

kafka遵从一般的MQ结构，producer，broker，consumer，以consumer为中心，消息的消费信息保存的客户端consumer上，consumer根据消费的点，从broker上批量pull数据；无消息确认机制。

2.吞吐量

kafka具有高的吞吐量，内部采用消息的批量处理，zero-copy机制，数据的存储和获取是本地磁盘顺序批量操作，具有O(1)的复杂度，消息处理的效率很高。

rabbitMQ在吞吐量方面稍逊于kafka，他们的出发点不一样，rabbitMQ支持对消息的可靠的传递，支持事务，不支持批量的操作；基于存储的可靠性的要求存储可以采用内存或者硬盘。

3.可用性

rabbitMQ支持miror的queue，主queue失效，miror queue接管。

kafka的broker支持主备模式。

4.集群负载均衡

kafka采用zookeeper对集群中的broker、consumer进行管理，可以注册topic到zookeeper上；通过zookeeper的协调机制，producer保存对应topic的broker信息，可以随机或者轮询发送到broker上；并且producer可以基于语义指定分片，消息发送到broker的某分片上。

Kafka的应用和理解

Flume的扇出应用的好处

Elasticsearch 的主要应用以及理解

系统调度周期多长

一般一天或一周较多，视自己项目业务而定。

调度设计的理解实现

产品经理的职责以及与你的联系

产品经理提需求等，

分类聚类算法的理解，以及在项目中的实现

项目中出现的挑战问题

项目步骤的解释

Hive执行计划

https://www.cppentry.com/bencandy.php?fid=117&id=201834

hive用的多么 hive动态分区和分桶

略。

sqoop工具可以条件导出吗

可以条件导出

sqoop代码怎么写

sqoop import --connect jdbc:mysql://192.168.1.1:3306/events --username root --passwd 123456 --table student --hive-import --hive-table student -m 1

高精尖面试题（五）

猜你喜欢