海量数据处理思想 + 一些例题

海量数据，顾名思义就是数据量太大，内存里装不下，基本思路就是分治，借助一些合适的数据结构；下来看一下具体的例子

一、bit-map:使用bit数组来表示元素是否存在，这样只需要存储比特位即可；

1、如果有40亿个QQ,如何存储
首先我们需要清楚，如果有40亿个QQ号，假设每个QQ号用一个int类型存储，则大约需要16G的空间，所以如果不做任何处理直接存储，缺点是空间消耗比较大，并且也有可能导致内存不够的问题。在这里，我们存储的目的主要是用于查询，所以我们可以使用位图存储某一个QQ存在与否的二值信息。对于每一个二值信息，我们可以用一个bit位保存，这样，40亿个QQ号的存储空间我们可以减少32倍，即只需要消耗大概500M的空间。
2、给定100亿个整数，设计算法找到只出现一次的整数
采用2-Bitmap（每个数分配2bit，00表示不存在，01表示出现一次，10表示多次，11无意义）进行，共需内存内存，还可以接受。然后扫描这2.5亿个整数，查看Bitmap中相对应位，如果是00变01，01变10，10保持不变。所描完事后，查看bitmap，把对应位是01的整数输出即可。还有一种办法，进行划分小文件的方法。然后在小文件中找出不重复的整数，并排序。然后再进行归并，注意去除重复的元素。

二、堆：这种适合topk问题，

特别适合topN问题，内存中一下子无法加载所有的数据集，此时可以先读取海量数据中前面的K个数，建立数据集为K的小根堆，然后依次往堆结构中读取数字，调整堆，使其保持小顶堆，最后得到topk的最大数。
3、上千万或上亿数据（有重复），统计其中出现次数最多的钱N个数据。
　　上千万或上亿的数据，现在的机器的内存应该能存下。所以考虑采用hash_map/搜索二叉树/红黑树等来进行统计次数。然后就是取出前N个出现次数最多的数据了，可以用第2题提到的堆机制完成。

三、hash映射进行分治，然后归并

hash映射通过key-value模型，就会把海量数据变少，然后分段处理，接着再进行归并，
4、给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？
遍历文件a，对每个url求取hash(url)%1000，根据所取得的值将url分别存储到1000个小文件中。这样每个小文件的大约为300M。接着再遍历文件b，采取和a相同的方式将url分别存储到1000小文件，这样处理后，所有可能相同的url都在对应的小文件（a0vsb0,a1vsb1,…,a999vsb999）中，不对应的小文件不可能有相同的url。所以逐个比较各个小文件中的url,然后归并就可以了；
　
5、有一个log文件，提取出访问百度次数最多的那个IP,
再详细介绍下此方案：首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP（可以采用hash_map进行频率统计，然后再找出频率最大的几个）及相应的频率。然后再在这1000个最大的IP中，找出那个频率最大的IP，即为所求。==
6、怎么在海量数据中找出重复次数最多的一个？
先做hash，然后求模映射为小文件，求出每个小文件中重复次数最多的一个，并记录重复次数。然后找出上一步求出的数据中重复次数最多的一个就是所求。

四、hash统计：以特征为key统计

五、trie树：适合字符串类的查找：如把500万个单词中大量的重复单词去掉，

六、布隆过滤器

可以用于判重，此方法存在一定的误差，但是比较高效。方法是利用多种不同的hash方法对数据集做hash运算，将对应的结果为key，值为1，然后判断一个新数在不在这个数据集中，则用相同的n中hash方法进行计算，如果全为1则认为在，任何一个不为1，则认为不在。