大数据学习之BigData常用算法和数据结构

1.Bloom Filter

由一个很长的二进制向量和一系列hash函数组成

优点：可以减少IO操作，省空间

缺点：不支持删除，有误判

如果要支持删除操作：改成计数布隆过滤器

大数据

2.SkipList（跳表）

核心思路：由多层组成，每层都是一个有序链表，最底层包含所有元素，元素数逐层递减。每个节点包含两个指针，一个->,一个向下。

并行编程情况下可以用锁或者CAS操作。

CAS:

compare and swap，解决多线程并行情况下使用锁造成性能损耗的一种机制，CAS操作包含三个操作数——内存位置（V）、预期原值（A）和新值（B）。如果内存位置的值与预期原值相匹配，那么处理器会自动将该位置值更新为新值。否则，处理器不做任何操作。无论哪种情况，它都会在CAS指令之前返回该位置的值。CAS 有效地说明了“我认为位置V应该包含值A；如果包含该值，则将B放到这个位置；否则，不要更改该位置，只告诉我这个位置现在的值即可。

扫描二维码关注公众号，回复： 6184606 查看本文章

用CAS实现的插入：

void insert（Node *prev, Node *node） { while （true） { node->next = prev->next; if （__sync_compare_and_swap（&prev->next, node->next, node）） { return; } } }

3.LSM树（Log-Structured Merge-Tree）

与B+树相比，牺牲部分读性能，大幅提高写性能。

宗旨：把大量随机写改为批量序列写。

在内存中维护多个小的有序结构，在查找时要二分遍历这些结构，不断把小树合并为大树，进行批量插入。

为了优化查找，可以使用Bloom Filter。（判断小结构中有没有目标数据）

在这里我还是要推荐下我自己建的大数据学习交流qq裙：522189307 ，裙里都是学大数据开发的，如果你正在学习大数据，小编欢迎你加入，大家都是软件开发党，不定期分享干货（只有大数据开发相关的），包括我自己整理的一份最新的大数据进阶资料和高级开发教程，欢迎进阶中和进想深入大数据的小伙伴。上述资料加群可以领取

4.HashTree

用于快速定位海量数据中少量变化的内容

对每一项数据进行Hash，多项组合之后再Hash，再Hash，最后到Top Hash。

5.Cuckoo哈希

使用两个哈希函数H1（X）和H2（X），插入X时，同时计算H1（X）和H2（X），如果任意一个桶为空，将X插入相应位置，如果都满了，选一个桶把y踢掉，放入X,对y执行上述过程。设定最大替换次数，达到次数时增大桶的数量或者重选Hash函数。

大数据学习之BigData常用算法和数据结构

猜你喜欢