牛客网面试——大数据方面/计算机基础/概率题

•    100亿数字,怎么统计前100大的? 
•    10亿个url,每个url大小小于56B,要求去重,内存4G。 
•    1KW句子算相似度(还是那套分块+hash/建索引,但是因为本人不是做这个的,文本处理根本说一片空白,所以就不误导大家了),之后就是一直围绕大数据的题目不断深化。 
•    Q1:给定一个1T的单词文件,文件中每一行为一个单词,单词无序且有重复,当前有5台计算机。请问如何统计词频? 
•    Q2:每台计算机需要计算200G左右的文件,内存无法存放200G内容,那么如何统计这些文件的词频? 
•    Q3:如何将1T的文件均匀地分配给5台机器,且每台机器统计完词频生成的文件只需要拼接起来即可(即每台机器统计的单词不出现在其他机器中) 
•    一个大文件A和一个小文件B,里面存的是单词,要求出在文件B中但不在文件A中的单词。然后大文件A是无法直接存到内存中的。 
•    一道题目是如果有一个人注册一个qq,如何保证这个qq号码和之前已存在的qq号码不重复呢? 
•    扔硬币,连续出现两次正面即结束,问扔的次数期望 
•    有100W个集合,每个集合中的word是同义词,同义词具有传递性, 比如集合1中有word a, 集合2中也有word a, 则集合1,2中所有词都是同义词,对这100W个集合进行归并,同义词都在一个集合当中。 
•    有几个 G 的文本,每行记录了访问 ip 的 log ,如何快速统计 ip 出现次数最高的 10 个 i

猜你喜欢

转载自blog.csdn.net/ccsss22/article/details/127156031
今日推荐