大数据面试题-两个大文件中找出共同记录

其他 2018-06-04 00:12:21 阅读次数: 2

1.题目描述

给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url?

2.思考过程

（1）首先我们最常想到的方法是读取文件a，建立哈希表（为什么要建立hash表？因为方便后面的查找），然后再读取文件b，遍历文件b中每个url，对于每个遍历，我们都执行查找hash表的操作，若hash表中搜索到了，则说明两文件共有，存入一个集合。

（2）但上述方法有一个明显问题，加载一个文件的数据需要50亿*64bytes = 320G远远大于4G内存，何况我们还需要分配哈希表数据结构所使用的空间，所以不可能一次性把文件中所有数据构建一个整体的hash表。

（3）针对上述问题，我们分治算法的思想。

step1：遍历文件a，对每个url求取hash(url)%1000，然后根据所取得的值将url分别存储到1000个小文件(记为a0,a1,...,a999，每个小文件约300M)，为什么是1000？主要根据内存大小和要分治的文件大小来计算，我们就大致可以把320G大小分为1000份，每份大约300M（当然，到底能不能分布尽量均匀，得看hash函数的设计）

step2：遍历文件b，采取和a相同的方式将url分别存储到1000个小文件(记为b0,b1,...,b999)（为什么要这样做? 文件a的hash映射和文件b的hash映射函数要保持一致，这样的话相同的url就会保存在对应的小文件中，比如，如果a中有一个url记录data1被hash到了a99文件中，那么如果b中也有相同url，则一定被hash到了b99中）

所以现在问题转换成了：找出1000对小文件中每一对相同的url（不对应的小文件不可能有相同的url）

step3：因为每个hash大约300M，所以我们再可以采用（1）中的想法

最后对两个新的url文件做hadoop计数，reduce的结果中count为2的即是重复项。

也可用其他方法。

猜你喜欢

转载自blog.csdn.net/u011389515/article/details/80526971

大数据面试题-两个大文件中找出共同记录

算法系列-大数据面试题-两个大文件中找出共同记录

BD面试题1-两个大文件中找出公共记录[转载]

面试- 阿里-. 大数据题目- 给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url?

从两个文件(各含50亿个url)中找出共同的url

【链表面试题】求两个已排序单链表中相同的数据

两个面试题

vue两个面试题

面试题两个

大数据面试题——如何从大量数据中找出高频词

大数据面试题——如何在大量的数据中找出不重复的数

【面试题】输入两个链表，找出他们的第一个公共结点

python面试题有两个文件，每个都有很多行ip地址，求出两个文件中相同的ip地址

海量数量处理：两个大文件中的相同记录

大数据面试题——如何从大量的url中找出相同的url

大数据面试题记录

两个50亿url文件找出共同的url的个人思考解法

面试题1之------python使用列表实现两个大数字相加

前端面试题，写出一个快速找出两个数组不同值的函数。

程序员面试题：快速找出一个数组中的两个数字，让这两个数字之和等于一个给定的值

海量数据实战（0）从两个文件50亿数据中找出相同的URL

数据结构：两个栈实现一个队列（面试题）

【面试题】之给定一个整数数组和一个目标值，在该数组中找出和为目标值的那两个整数并返回下标

《剑指offer》面试题68：树中两个节点的最低公共祖先

【Java】面试题68：树中两个节点的最低公共祖先

剑指Offer——面试题68：树中两个结点的最低公共祖先

【面试题17：合并两个排序的链表】

面试题25：合并两个排序的链表

某公司两个面试题

【面试题】合并两个排序的链表

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)