-
哈希表也叫散列表,哈希表是一种数据结构,它提供了快速的插入操作和查找操作,无论哈希表总中有多少条数据,插入和查找的时间复杂度都是为O(1),因为哈希表的查找速度非常快,所以在很多程序中都有使用哈希表,例如拼音检查器。
-
哈希表也有自己的缺点,哈希表是基于数组的,我们知道数组创建后扩容成本比较高,所以当哈希表被填满时,性能下降的比较严重。哈希表是根据关键码的值而直接进行访问的数据结构。哈希表中关键码就是数组的索引下标,然后通过下标直接访问数组中的元素。
-
一般哈希表都是用来快速判断一个元素是否出现集合里。例如要查询一个名字是否在这所学校里。要枚举的话时间复杂度是O(n),但如果使用哈希表的话, 只需要O(1)就可以做到。我们只需要初始化把这所学校里学生的名字都存在哈希表里,在查询的时候通过索引直接就可以知道这位同学在不在这所学校里了。将学生姓名映射到哈希表上就涉及到了hash function ,也就是哈希函数。
-
哈希函数,把学生的姓名直接映射为哈希表上的索引,然后就可以通过查询索引下标快速知道这位同学是否在这所学校里了。哈希函数如下图所示,通过hashCode把名字转化为数值,一般hashcode是通过特定编码方式,可以将其他数据格式转化为不同的数值,这样就把学生名字映射为哈希表上的索引数字了。
-
如果hashCode得到的数值大于 哈希表的大小了,也就是大于tableSize了,怎么办呢?此时为了保证映射出来的索引数值都落在哈希表上,我们会在再次对数值做一个取模的操作,就要我们就保证了学生姓名一定可以映射到哈希表上了。
-
如果学生的数量大于哈希表的大小怎么办,此时就算哈希函数计算的再均匀,也避免不了会有几位学生的名字同时映射到哈希表 同一个索引下标的位置。如图所示,小李和小王都映射到了索引下标 1 的位置,这一现象叫做哈希碰撞。
-
一般哈希碰撞有两种解决方法, 拉链法和线性探测法。
-
拉链法:刚刚小李和小王在索引1的位置发生了冲突,发生冲突的元素都被存储在链表中。 这样我们就可以通过索引找到小李和小王了。(数据规模是dataSize, 哈希表的大小为tableSize)
-
其实拉链法就是要选择适当的哈希表的大小,这样既不会因为数组空值而浪费大量内存,也不会因为链表太长而在查找上浪费太多时间。
-
线性探测法:使用线性探测法,一定要保证tableSize大于dataSize。 我们需要依靠哈希表中的空位来解决碰撞问题。例如冲突的位置,放了小李,那么就向下找一个空位放置小王的信息。所以要求tableSize一定要大于dataSize ,要不然哈希表上就没有空置的位置来存放 冲突的数据了。如图所示:
-
-
常见的三种哈希结构:数组,set (集合),map(映射)。在C++中,set 和 map 分别提供以下三种数据结构,其底层实现以及优劣如下表所示:
-
集合 底层实现 是否有序 数值是否可以重复 能否更改数值 查询效率 增删效率 std::set 红黑树 有序 否 否 O(log n) O(log n) std::multiset 红黑树 有序 是 否 O(log n) O(log n) std::unordered_set 哈希表 无序 否 否 O(1) O(1) -
std::unordered_set底层实现为哈希表,std::set 和std::multiset 的底层实现是红黑树,红黑树是一种平衡二叉搜索树,所以key值是有序的,但key不可以修改,改动key值会导致整棵树的错乱,所以只能删除和增加。
-
映射 底层实现 是否有序 数值是否可以重复 数值是否可以重复 查询效率 增删效率 std::map 红黑树 有序 否 否 O(logn) O(logn) std::multimap 红黑树 有序 是 否 O(logn) O(logn) std::unordered_map 哈希表 无序 否 否 O(1) O(1) -
std::unordered_map 底层实现为哈希表,std::map 和std::multimap 的底层实现是红黑树。同理,std::map 和std::multimap 的key也是有序的。
-
-
当我们要使用集合来解决哈希问题的时候,优先使用unordered_set,因为它的查询和增删效率是最优的,如果需要集合是有序的,那么就用set,如果要求不仅有序还要有重复数据的话,那么就用multiset。
-
那么再来看一下map ,在map 是一个key value 的数据结构,map中,对key是有限制,对value没有限制的,因为key的存储方式使用红黑树实现的。其他语言例如:java里的HashMap ,TreeMap 都是一样的原理。可以灵活贯通。
-
虽然std::set、std::multiset 的底层实现是红黑树,不是哈希表,std::set、std::multiset 使用红黑树来索引和存储,不过给我们的使用方式,还是哈希法的使用方式,即key和value。所以使用这些数据结构来解决映射问题的方法,我们依然称之为哈希法。 map也是一样的道理。
-
unordered_set在C++11的时候被引入标准库了,而hash_set并没有,所以建议还是使用unordered_set比较好,这就好比一个是官方认证的,hash_set,hash_map 是C++11标准之前民间高手自发造的轮子。
-
当我们遇到了要快速判断一个元素是否出现集合里的时候,就要考虑哈希法。但是哈希法也是牺牲了空间换取了时间,因为我们要使用额外的数组,set或者是map来存放数据,才能实现快速的查找。
题目:有效的字母异位词
-
给定两个字符串
s
和t
,编写一个函数来判断t
是否是s
的字母异位词。注意:若s
和t
中每个字符出现的次数都相同,则称s
和t
互为字母异位词。 -
运用ASCII码特性简单解题:
-
class Solution { public: bool isAnagram(string s, string t) { int s_len = s.size(); int t_len = t.size(); if(s_len!=t_len){ return false; } vector<int> s_vec(26),t_vec(26); for(int i =0;i<s_len;i++){ s_vec[s[i]-97]++; t_vec[t[i]-97]++; } for(int i=0;i<26;i++){ if(s_vec[i]!=t_vec[i]){ return false; } } return true; } };
-
-
数组其实就是一个简单哈希表,而且这道题目中字符串只有小写字符,那么就可以定义一个数组,来记录字符串s里字符出现的次数。需要定义一个多大的数组呢,大小为26 就可以了,初始化为0,因为字符a到字符z的ASCII也是26个连续的数值。需要把字符映射到数组也就是哈希表的索引下标上,因为字符a到字符z的ASCII是26个连续的数值,所以字符a映射为下标0,相应的字符z映射为下标25。
-
再遍历 字符串s的时候,只需要将 s[i] - ‘a’ 所在的元素做+1 操作即可,并不需要记住字符a的ASCII,只要求出一个相对数值就可以了。 这样就将字符串s中字符出现的次数,统计出来了。那看一下如何检查字符串t中是否出现了这些字符,同样在遍历字符串t的时候,对t中出现的字符映射哈希表索引上的数值再做-1的操作。那么最后检查一下,如果有的元素不为零0,说明字符串s和t一定是谁多了字符或者谁少了字符,return false。最后如果record数组所有元素都为零0,说明字符串s和t是字母异位词,return true。
-
时间复杂度为O(n),空间上因为定义是的一个常量大小的辅助数组,所以空间复杂度为O(1)。
-
对于进阶问题,Unicode 是为了解决传统字符编码的局限性而产生的方案,它为每个语言中的字符规定了一个唯一的二进制编码。而 Unicode 中可能存在一个字符对应多个字节的问题,为了让计算机知道多少字节表示一个字符,面向传输的编码方式的 UTF−8 和 UTF−16 也随之诞生逐渐广泛使用。进阶问题的核心点在于「字符是离散未知的」,因此我们用哈希表维护对应字符的频次即可。同时读者需要注意 Unicode 一个字符可能对应多个字节的问题,不同语言对于字符串读取处理的方式是不同的。
题目:两个数组的交集
- 给定两个数组
nums1
和nums2
,返回 它们的交集 。输出结果中的每个元素一定是 唯一 的。我们可以 不考虑输出结果的顺序 。
题解
-
这道题目,主要要学会使用一种哈希数据结构:unordered_set,这个数据结构可以解决很多类似的问题。注意题目特意说明:输出结果中的每个元素一定是唯一的,也就是说输出的结果的去重的, 同时可以不考虑输出结果的顺序。但是要注意,使用数组来做哈希的题目,是因为题目都限制了数值的大小。而这道题目没有限制数值的大小,就无法使用数组来做哈希表了。而且如果哈希值比较少、特别分散、跨度非常大,使用数组就造成空间的极大浪费。
-
此时就要使用另一种结构体了,set ,关于set,C++ 给提供了如下三种可用的数据结构:std::set;std::multiset;std::unordered_set
-
std::set和std::multiset底层实现都是红黑树,std::unordered_set的底层实现是哈希表, 使用unordered_set 读写效率是最高的,并不需要对数据进行排序,而且还不要让数据重复,所以选择unordered_set。
-
class Solution { public: vector<int> intersection(vector<int>& nums1, vector<int>& nums2) { // std::unordered_set<int> temp_set; // for(int i=0;i<nums1.size();i++){ // temp_set.insert(nums1[i]); // } // for(int i=0;i<nums2.size();i++){ // temp_set.insert(nums2[i]); // } // vector<int> res; // res.assign(temp_set.begin(),temp_set.end()); // return res; unordered_set<int> res; //存结果,set可去重 unordered_set<int> nums1_set(nums1.begin(),nums1.end()); for(int item:nums2){ if(nums1_set.find(item)!=nums1_set.end()){ // 发现nums2的元素 在 nums1_set 里又出现过 res.insert(item); } } return vector<int>(res.begin(),res.end()); } };
-
时间复杂度:O(m+n),其中 m 和 n 分别是两个数组的长度。使用两个集合分别存储两个数组中的元素需要 O(m+n) 的时间,遍历较小的集合并判断元素是否在另一个集合中需要 O(min(m,n)) 的时间,因此总时间复杂度是 O(m+n)。空间复杂度:O(m+n),其中 m 和 n 分别是两个数组的长度。空间复杂度主要取决于两个集合。
题目:快乐数
- 编写一个算法来判断一个数
n
是不是快乐数。「快乐数」 定义为:对于一个正整数,每一次将该数替换为它每个位置上的数字的平方和。然后重复这个过程直到这个数变为 1,也可能是 无限循环 但始终变不到 1。如果这个过程 结果为 1,那么这个数就是快乐数。如果n
是 快乐数 就返回true
;不是,则返回false
。
题解
-
方法: 使用 “快慢指针” 思想,找出循环:“快指针” 每次走两步,“慢指针” 每次走一步,当二者相等时,即为一个循环周期。此时,判断是不是因为 1 引起的循环,是的话就是快乐数,否则不是快乐数。 注意:此题不建议用集合记录每次的计算结果来判断是否进入循环,因为这个集合可能大到无法存储;另外,也不建议使用递归,同理,如果递归层次较深,会直接导致调用栈崩溃。不要因为这个题目给出的整数是 int 型而投机取巧。
-
class Solution { public: int sum_n(int n){ int sum=0; while(n>0){ int temp=n%10;//找一个数 sum += pow(temp,2); n=n/10; } return sum; } bool isHappy(int n) { int slow=n,fast=n; do{ slow = sum_n(slow); fast = sum_n(fast); fast = sum_n(fast); }while(slow!=fast); return slow==1; } };
-
题目中说了会 无限循环,那么也就是说求和的过程中,sum会重复出现,这对解题很重要!当我们遇到了要快速判断一个元素是否出现集合里的时候,就要考虑哈希法了。所以这道题目使用哈希法,来判断这个sum是否重复出现,如果重复了就是return false, 否则一直找到sum为1为止。判断sum是否重复出现就可以使用unordered_set。
-
class Solution { public: int sum_n(int n){ int sum=0; while(n>0){ int temp=n%10;//找一个数 sum += pow(temp,2); n=n/10; } return sum; } bool isHappy(int n) { // int slow=n,fast=n; // do{ // slow = sum_n(slow); // fast = sum_n(fast); // fast = sum_n(fast); // }while(slow!=fast); // return slow==1; unordered_set<int> temp_set; while(true){ int sum = sum_n(n); if(sum==1){ return true; } if(temp_set.find(sum)!=temp_set.end()){ // 如果这个sum曾经出现过,说明已经陷入了无限循环了,立刻return false return false; }else{ temp_set.insert(sum); } n=sum; } } };
题目:两数之和
- 给定一个整数数组
nums
和一个整数目标值target
,请你在该数组中找出 和为目标值target
的那 两个 整数,并返回它们的数组下标。你可以假设每种输入只会对应一个答案。但是,数组中同一个元素在答案里不能重复出现。你可以按任意顺序返回答案。
题解
-
使用哈希表,可以将寻找
target - x
的时间复杂度降低到从 O(N) 降低到 O(1)。这样我们创建一个哈希表,对于每一个x
,我们首先查询哈希表中是否存在target - x
,然后将x
插入到哈希表中,即可保证不会让x
和自己匹配。 -
class Solution { public: vector<int> twoSum(vector<int>& nums, int target) { unordered_map<int,int> temp_map; for(int i=0;i<nums.size();i++){ auto it = temp_map.find(target-nums[i]); if(it!=temp_map.end()){ return { it->second,i}; } temp_map[nums[i]]=i; } return { }; } };
-
首先我在强调一下 什么时候使用哈希法,当我们需要查询一个元素是否出现过,或者一个元素是否在集合里的时候,就要第一时间想到哈希法。本题呢,我就需要一个集合来存放我们遍历过的元素,然后在遍历数组的时候去询问这个集合,某元素是否遍历过,也就是 是否出现在这个集合。
-
因为本地,我们不仅要知道元素有没有遍历过,还要知道这个元素对应的下标,需要使用 key value结构来存放,key来存元素,value来存下标,那么使用map正合适。再来看一下使用数组和set来做哈希法的局限。
-
数组的大小是受限制的,而且如果元素很少,而哈希值太大会造成内存空间的浪费。
-
set是一个集合,里面放的元素只能是一个key,而两数之和这道题目,不仅要判断y是否存在而且还要记录y的下标位置,因为要返回x 和 y的下标。所以set 也不能用。
-
-
此时就要选择另一种数据结构:map ,map是一种key value的存储结构,可以用key保存数值,用value在保存数值所在的下标。map目的用来存放我们访问过的元素,因为遍历数组的时候,需要记录我们之前遍历过哪些元素和对应的下标,这样才能找到与当前元素相匹配的(也就是相加等于target)。
-
这道题 我们需要 给出一个元素,判断这个元素是否出现过,如果出现过,返回这个元素的下标。那么判断元素是否出现,这个元素就要作为key,所以数组中的元素作为key,有key对应的就是value,value用来存下标。
-
所以 map中的存储结构为 {key:数据元素,value:数组元素对应的下标}。
-
在遍历数组的时候,只需要向map去查询是否有和目前遍历元素匹配的数值,如果有,就找到的匹配对,如果没有,就把目前遍历的元素放进map中,因为map存放的就是我们访问过的元素。
-
时间复杂度:O(N),其中 N 是数组中的元素数量。对于每一个元素
x
,我们可以 O(1) 地寻找target - x
。空间复杂度:O(N),其中 N 是数组中的元素数量。主要为哈希表的开销。