拉勾大数据开发高薪训练营

项目的模型训练和项目的准确度是多少？
答：一般在项目的初期准确度一般在百分之85左右就可以了，这个精准度还要根据业务的不断调整去不断的调节
项目组多少人？怎么分工的？薪水多少？项目中你负责那一块？
答：这一块大家可以根据要面试的公司规模来提前准备几十人几百人分组都可以，但是薪水一定不要说滴，如果你是10k的工资去面试30k的岗位人家首先会对你产生怀疑的。
手写冒泡排序和二分查找？
这个建议大家在去面试之前一定要牢牢的记住怎么写，起码要自己能加拿大的写一个小的demo，这样才能在面试官面前书写流畅。
如何将一个标题等在一千万数据中进行进行 Top10 的推荐？
答案：标题向量化，数据清洗和降维，计算相似度，推荐
kafka 用到了什么
答：消息持久化，消息批量发送，消息有效期，负载均衡方面都可以说，同步异步的问题，但是一定要挑自己熟悉的说
hadoop 支持三种调度器
答：先进先出的调度器：最早的 hadoop 采用的是 FIFO（默认-先进先出的）调度器调度用户提交的作业。作业按照提交的顺序被调度，作业必须等待轮询到自己才能运行。但是考虑到公平在多用户之间分配资源，设置了作业的优先级功能，但是不支持抢占式的。

公平调度器：公平调度器的目标是让每一个用户公平的共享集群能力，充分的利用闲置的任务槽，采用“让用户公平的共享集群”的方式分配资源。作业放在作业池之中，每个用户拥有自己的作业池。提交的作业越多并不会因此获得更多的资源，公平调度器支持抢占式的机制，一个作业池中若没有公平的共享资源，则会将多余的资源空出来。

容量调度器：集群中很多的队列组成的，这些队列具有一定的层次结构，每个队列都有一定的容量。每个队列的内部支持 FIIFO 方式。本质上容量调度器允许用户或则组织模拟出一个使用 FIFO 调度策略的独立 MApReduce 集群

编写 mapreduce 的方式：
java 编写-常用 Hadoop Streaming：使用 unix 标准的输入和输出流作为 hadooop 和应用程序之间的接口，支持像Ruby，python 等不同的编程语言编写 map 和 reduce Hadoop Pipes 是 hadoop 提供的 C++ 的接口的名称
hive 保存元数据的方式有三种：
1：自带的内存数据库 Derby 方式保存，只支持单个会话，挺小，不常用
2：本地 mysql ：常用本地调用 3：Remote 远程 mysql 方式：远程调用
hadoop 二级排序：
hadoop 默认的是对 key 进行排序，如果想要再对 value 进行排序，那么就要使用：二级排序二级排序的方式： 1：将 reduce 接收到的 value-list 的值缓存，然后做 reduce 内排序，再写出，这样排序速度快一些，由于value-list 的数据可能很庞大，可能会造成内存的溢出 2：将值的一部分或则整个部分加入 key ，生成一个合并的可以。生成组合 key 的过程很简单。我们需要先分析一下，在排序时需要把值的哪些部分考虑在内，然后，把它们加进 key 里去。随后，再修改 key 类的 compareTo 方法或是 Comparator 类，确保排序的时候使用这个组合而成的 key。
内部表&外部表
hive 的内部表和外部表的區別是 hive 的内部表是由 hive 自己管理的，外部表只是管理元数据，当删除数据的时候，内部表会连数据和元数据全部删除，而外部表则只会删除元数据，数据依然存放在 hdfs 中。外部表相对来说更加的安全一些，数据的组织也更加的灵活一些，方便共享源数据

下面来点数据结构方面的题转换一下思路手写数据结构和算法：比较重要，基础中的基础

拉勾大数据开发高薪训练营

猜你喜欢