实现分布式锁的几种方式

1. 完全基于数据库
用乐观锁做幂等。缺点是缺少保护,大量请求直接打到数据库;好处是简单不易出错。

2. 使用队列
如果是单机环境,使用普通的先进先出队列即可;若是分布式环境,则需要依靠 Redis 有序集合等方式来实现。

3. 使用 Redis
以下内容来自: http://fableking.iteye.com/blog/2052798

Redis 有一系列的命令,特点是以 NX 结尾, NX 是 Not eXists 的缩写,如 SETNX 命令就应该理解为: SET if Not eXists 。这系列的命令非常有用,这里讲使用 SETNX 来实现分布式锁。

用 SETNX 实现分布式锁

利用 SETNX 可以非常简单地实现分布式锁。例如:某客户端要获得一个名字为 foo 的锁,客户端使用下面的命令进行获取:

SETNX lock.foo <current Unix time + lock timeout + 1>

  • 如返回1,则该客户端获得锁,把 lock.foo 的键值设置为时间值表示该键已被锁定,该客户端最后可以通过 DEL lock.foo 来释放该锁。
  • 如返回0,表明该锁已被其他客户端取得,这时我们可以先返回或进行重试等对方完成或等待锁超时。


解决死锁

上面的锁定逻辑有一个问题:如果一个持有锁的客户端失败或崩溃了不能释放锁,该怎么解决?我们可以通过锁的键对应的时间戳来判断这种情况是否发生了,如果当前的时间已经大于 lock.foo 的值,说明该锁已失效,可以被重新使用。

发生这种情况时,可不能简单的通过 DEL 来删除锁,然后再 SETNX 一次。当多个客户端检测到锁超时后都会尝试去释放它,这里就可能出现一个竞态条件,让我们模拟一下这个场景:

  • C0 操作超时了,但它还持有着锁。 C1 和 C2 读取 lock.foo 检查时间戳,先后发现超时了。
  • C1 发送 DEL lock.foo
  • C1 发送 SETNX lock.foo 并且成功了。
  • C2 发送 DEL lock.foo
  • C2 发送 SETNX lock.foo 并且成功了。


这样一来, C1 , C2 都拿到了锁!问题大了!

幸好这种问题是可以避免的,让我们来看看 C3 这个客户端是怎样做的:

C3 发送 SETNX lock.foo 想要获得锁,由于 C0 还持有锁,所以 Redis 返回给 C3 一个0。
C3 发送 GET lock.foo 以检查锁是否超时了,如果没超时,则等待或重试。
反之,如果已超时, C3 通过下面的操作来尝试获得锁: GETSET lock.foo <current Unix time + lock timeout + 1>
通过 GETSET ,C3 拿到的时间戳如果仍然是超时的,那就说明, C3 如愿以偿拿到锁了。
如果在 C3 之前,有个叫 C4 的客户端比 C3 快一步执行了上面的操作,那么 C3 拿到的时间戳是个未超时的值,这时, C3 没有如期获得锁,需要再次等待或重试。留意一下,尽管 C3 没拿到锁,但它改写了 C4 设置的锁的超时值,不过这一点非常微小的误差带来的影响可以忽略不计。

注意:为了让分布式锁的算法更稳键些,持有锁的客户端在解锁之前应该再检查一次自己的锁是否已经超时,再去做 DEL 操作,因为可能客户端因为某个耗时的操作而挂起,操作完的时候锁因为超时已经被别人获得,这时就不必解锁了。

示例伪代码

根据上面的代码,我写了一小段 Fake 代码来描述使用分布式锁的全过程:
# get lock  
lock = 0  
while lock != 1:  
    timestamp = current Unix time + lock timeout + 1  
    lock = SETNX lock.foo timestamp  
    if lock == 1 or (now() > (GET lock.foo) and now() > (GETSET lock.foo timestamp)):  
        break;  
    else:  
        sleep(10ms)  
   
# do your job  
do_job()  
   
# release  
if now() < GET lock.foo:  
    DEL lock.foo  

是的,要想这段逻辑可以重用,使用 python 的你马上就想到了 Decorator ,而用 Java 的你是不是也想到了那谁? AOP + annotation ?行,怎样舒服怎样用吧,别重复代码就行。

注:以上原文转自: http://www.jeffkit.info/2011/07/1000/

上面是一个很不错的思路,但也有所不足。
1. 释放锁的时候( release 代码块),如果线程操作超时,并正确执行完成 do_job 代码块,这期间可能已经有新的请求获得了锁权限,此时 lock.foo 的值已被新的线程请求更新,应该就是大于 now() 的,这样的话会导致锁被意外释放。所以这里的判断条件应该改一改,如 timestamp == GET lock.foo ,这样的话,每个线程都只能释放自己加的锁,如果自己超时了,那么锁被更新成别的线程后,也不会把别的线程控制的锁释放掉。

2. 以上所说的情况是在所有分布式环境均在同一个服务器上或多个服务器但时间是完全同步的情况下可用,否则的话 now() 取出的时间不同步,可能导致锁有很大的安全问题,或者直接导致锁无效。

这样的情况下,要再完善这个思路就可以考虑在 SETNX 调用成功后,为 key 添加一个expires 。
整个思路就简单很多了,以上代码简单改变下:
# get lock
timestamp = ''
while true:
    # random 防止并发值重复
    timestamp = current unix time + '#' + random
    # 当 key 被上一个锁删除或过期时,以下操作都可以这么判断
    if (SETNX lock.foo timestamp) == 1:
        EXPIRE lock.foo timeout
        break
    else:
        sleep(10ms)

# do your job
do_job()

# release
if timestamp == GET lock.foo:
    DEL lock.foo 




总结
timestamp = "";

while(true) {
    timestamp = current_unix_time;
    if (SETNX key timestamp) {
	    EXPIRE key timeout;
        break;
    } else {
        sleep(10ms);
    }
}

do your work;

if (timestamp == GET key) {
    DEL key;
}

==================================================

lock = 0;

while(lock != 1) {
    timestamp = current_unix_time + timeout + 1;
    lock = SETNX key timestamp;
    if (lock == 1 || (now > GET key && now > GETSET key timestamp)) {
        break;
    } else {
        sleep(10ms);
    }
}

do your work;

if (now < GET key) {
    DEL key;
}

猜你喜欢

转载自dsxwjhf.iteye.com/blog/2294003