左 . 算法---哈希函数/哈希表/布隆过滤器专题

其他 2018-07-01 05:19:13 阅读次数: 0

哈希函数：

常见的功能就是打乱分布均匀随机输入无穷大输出却在一定范围内

即使出现碰撞但是每个输出对应的输入个数概率均匀分布没有太大偏向

一个重要的性质：如果在input域上均匀分布那么经过哈希并%m 运算后（在0~m-1范围内) 在输出域上同样均匀分布

哈希表：

经典结构：

根据key算出具体的hashcode值（h)----决定了value的存放位置

若 h 位置处为空则直接将key1-value1 放入

若h位置处不为空检查是否已有key1 若已有则更新其对应value值否则直接按照链表格式，节点连在上一节点后面

经典应用：

场景题： 如果现在有一个超级大的文件，需要统计其中重复的字符串，我们要怎么办？

目前已知的： 可以供给1000台计算机读取细节不用关心只需要设计大概系统

思路：哈希的分流特性

具体操作： 将大文件读取很多行每一行都计算哈希值并模1000 则这些字符串均匀分布在0-999范围内

给电脑编号0-999 对应分布在一个范围内的一些字符串用同一台电脑进行处理达到大数据分流的效果（类似于分布式）

每台电脑只统计自己处理的重复字符串最后将结果进行汇总即可

总结：

大数据相关的问题有一半都是借助于哈希来解决因为哈希具有“相同的肯定相同不同的均匀分布”特性

在桶不够用时可以进行扩容代价也还可以接受一般是O(lognN)

设计一个RandomPool结构：

思路：

因为 getRandom()函数要求等概率随机返回结构中的任意一个key

所以一张哈希表在小样本情况下无法做到随机需要至少两张哈希表

举例：

现在有26个字符串

分别按照顺序放入两个表中两个表的key value 是对应的

用size统计此时表中数据个数最后getRandom()时候直接 Math.random()*26 来获取map2中对应key的value

部分代码：

解决难点： 删除过程中会在原有随机结构中出现好多洞导致随机性变差如何解决此问题？

思路：

z最终的总代码：

布隆过滤器：

初识布隆过滤器：

举例： 假如有一个100亿的url的黑名单，希望用户在搜索这些url时，会将在黑名单中的url 过滤出去，不进行显示。

每个url都是64字节。应该如何实现这个操作？

最直观的想法: 就是查找用户搜索的url 是否在黑名单中，根据具体情况返回布尔值 true or false.

思路1 ：

考虑直接用哈希表进行存储。不用存value，直接存key ,则至少需要内存为 6400亿字节的hashset 数据结构（即640G）

这个内存很大，实际中我们可能需要多台电脑来操作（分布式）。

或利用哈希函数进行分流但仍然很麻烦。

思路2 ：

布隆过滤器（某种类型的集合，但是存在失误率）

存在的唯一失误率：如果确实在黑名单里的url肯定能够正确判断但可能出现：不在黑名单中的url但是它返回true 的情况~

一般这种类型的题目：

最好先说哈希表的经典解法 ------多台电脑分流之类的

改进：因为经典方法耗费内存太大----那询问是否允许较低的失误率----允许的话则可以采用布隆过滤器

布隆过滤器的细节：

结构：其实是一个bit数组数组中存的是bit(0/1)

举例：

新建int数组但其实相当于32000长度的bit数组

想要将第30000bit位上的数组描黑 -----则先确定在哪个大桶内-----再确定在那个桶中的哪个位上---原来数字和第bitIndex bit位上为1 的数字进行位或-----即得结果

实现：

拿基础类型即可实现

要想再大可以拿矩阵来表示直接如上1000*1000*64bit

黑名单问题的解决：

1 先准备一个长度为m bit 的数组（范围为0--m-1)

2 布隆过滤器预先准备多个hash函数（hash1 ---hash2---hash3....hashk)

3 将黑名单中的url1(假设为第一条url) 分别经过上述k 个hash函数计算出对应的k个哈希值 ---并在数组中对应位置上描黑

4 将黑名单中所有的url都进行第3步操作记录完毕

如何判断用户搜索的url是否在黑名单中？

同样将url经过第3步操作去看计算出的k个值对应的位置上是否都被描黑若有一个不符合则不是黑名单中的否则就在黑名单中

相关的参数大小:

如何解决误判问题：

相关问题：

一致性哈希：

一般应用在服务器集群上用以实现数据缓存

应用场景举例：

前端收到大量用户请求，该如何让后台的服务器进行储存和处理呢？

使用哈希---计算出对应哪个服务器处理----查询时---计算哈希---去找对应的服务器去查找

具体原理：

可能出现的问题及解决方法：

具体确定归属的细节：

增加机器时候的处理方法：

机器负载不均时的处理（虚拟节点机制）：

一致性哈希常用于负载均衡分布式服务器~~

并查集：

并查集中集合的初始化过程：

并查集的代表节点

在并查集中查一个节点属于哪个集合？

如何路径压缩？

集合如何合并？

代码：

1 .初始化并查集：

2 .查找某个节点所在集合的代表节点：

非递归版本代码

3 .集合的合并

用途：

岛问题：

正常方法（递归法）：

设置一个感染函数G 假设遇到一片1（可能上下左右均有）则均感染为2 并计数+1 继续前进

总结：此方法类似于DFS，就是深度搜索没有什么新意

而且矩阵一旦特别大则不实用仅适合单cpu运行

如何能够多cpu并行运行，提高速度和效率呢？

并查集方法：

考虑分别的岛个数和边界处可能合并的岛个数：

大概原理：分别统计各自部分的岛个数----在边界处标明是受哪个元素“感染”的，然后检查集合并合并，总数-1

此处用并查集的优势：涉及到大量集合合并判断是否是一个集合的运算

总结：

用多个cpu 分成多个部分最终就只要每一个负责统计自己部分的岛个数并记录四周的边界情况即可

猜你喜欢

转载自blog.csdn.net/duoduo18up/article/details/80573040

左 . 算法---哈希函数/哈希表/布隆过滤器专题

算法笔记——左神初级（8）哈希表、布隆过滤器、一致性哈希、并查集、岛问题

跟左神一起练算法（布隆过滤器和一致性哈希）

左 . 算法---树专题

左 . （进阶）算法---树专题

左 . 算法---排序 /栈队列/链表专题

哈希表与布隆过滤器

布隆过滤器一致哈希哈希函数和哈希表

哈希函数+布隆过滤器+一致性哈希+哈希表

哈希表、哈希函数、布隆过滤器、一致性哈希

左 . 算法--- 前缀树/贪心策略/递归/ 动态规划专题

哈希表拓展——布隆过滤器

哈希函数之布隆过滤器

布隆过滤器中的组合哈希函数

哈希变形----布隆过滤器

哈希扩展——布隆过滤器

哈希&布隆过滤器

哈希的应用 —— 布隆过滤器

【哈希】位图/布隆过滤器

左神算法笔记（八）——哈希表

【左神算法笔记】哈希函数应用

哈希表专题

算法学习（门徒计划）3-2 哈希表与布隆过滤器及经典问题学习笔记

哈希扩展--位图和布隆过滤器

哈希扩展之布隆过滤器

哈希扩展——布隆过滤器相关操作实现

哈希扩展---布隆过滤器(bloom filter)

布隆过滤器实现(哈希+位图)

布隆过滤器+哈希切分

哈希的应用：布隆过滤器（C++实现）

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)