利用python代码处理redis数据库的高并发情况

问题由来:

当我们在采集某一个网站的时候,由于url基数太大,想将其用分布式进行爬取,将所有的url放在同一个redis库中,然后利用多个相同的程序同时去取redis库中的url。(也可以直接使用scrapy_redis,博主这里是根据自己的需求重新定义的)

# -*- coding: utf-8 -*-
import redis
import time

# 链接redis数据库
redis_db = redis.Redis(host='172.*.*.*', port=6379, decode_responses=True, db=1)


def get_redis_key(redis_key):
    LOCK_TIMEOUT = 3
    lock = 0
    lock_timeout = 0
    lock_key = 'temp_lock_key'
    # 获取锁
    while lock != 1:
        now = int(time.time())
        lock_timeout = now + LOCK_TIMEOUT + 1
        lock = redis_db.setnx(lock_key, lock_timeout)
        if lock == 1 or (now > int(redis_db.get(lock_key))) and now > int(
                redis_db.getset(lock_key, lock_timeout)):
            break
        else:
            time.sleep(0.01)
    # 已获得锁
    values = redis_db.spop(redis_key)
    # 释放锁
    now = int(time.time())
    if now < lock_timeout:
        redis_db.delete(lock_key)
    return values

完毕!

发布了131 篇原创文章 · 获赞 211 · 访问量 27万+

猜你喜欢

转载自blog.csdn.net/qq_26870933/article/details/100135870
今日推荐