Apriori计算速度提升 - 代码天地

Apriori计算速度提升

其他 2018-04-14 21:05:33 阅读次数: 5

在利用Apriori算法计算关联规则时由于涉及到遍历搜索在计算数据较大时复杂度高，本文主要是在网上现有的python code中进行修改使计算速度提升100倍。总数据集为700多万条，频繁项集K=5

1，关联规则需根据用户需求进行K维pair对进行交叉，在第一轮迭代后删除支持度<最小支持度的数

#L1 为第一轮迭代后符合最小支持度的项集
#data_set为原始数据集
new_l1 = []
for p in L1:
     new_l1.extend(list(p))
data_set2 = []
for t in data_set:
    new_t = [s for s in t if s in new_l1]
    if len(new_t)>=5:
        data_set2.append(new_t)

第一步进行数据删除后在本例中删除20%数据（最小支持度选择较小，因此删除数据不多）

2，计算复杂度最高的一点是需要每一行循环，并对所有符合交叉条件的项集进行循环来计算各个项集的频繁项。本例中当K=2时循环次数是700W*3400。根据数据特点（每一行数据个数均值为10条），当k<=4时每一次的迭代时先计算这一行数据所有可能的交叉方式，然后检验交叉项集是否为频繁项集，可将循环次数降为700W*45.

 Lk = set()
 item_count = {}
 for t in data_set:
    if k==1:
        tmp = set()
        for item in t:
            item_set = frozenset([item])
            tmp.add(item_set)
     elif k<=4:
         tmp = combine(t, k)
     else:
         tmp = Ck.copy()
     for item in tmp:
         if  item in Ck and item.issubset(t):
             if item not in item_count:
                 item_count[item] = 1
              else:
                  item_count[item] += 1

def combine(l, n):
    l.sort()
    answers = []
    one = [0] * n
    def next_c(li = 0, ni = 0):
        if ni == n:
            answers.append(copy.copy(one))
            return
        for lj in xrange(li, len(l)):
            one[ni] = l[lj]
            next_c(lj + 1, ni + 1)
    next_c()
    tmp  =set()
    for i in answers:
        tmp.add(frozenset(i))
    return tmp

做完上述两步速度提升100倍。

猜你喜欢

转载自blog.csdn.net/weixin_38504868/article/details/79929854

Apriori计算速度提升

python提升计算速度的方法

华为云发布冷启动加速解决方案：助力Serverless计算速度提升90%+

python numpy numba 计算速度对比

Go 与 PHP 计算速度的简单对比

Lammps 如何计算速度矢量分布？

Matlab计算速度优化（矩阵，bsxfun，repmat）

一行代码加快pandas计算速度

【学习】-C/C++各种计算速度汇总

基于数据驱动 U-Net 模型的大气污染物扩散快速预测，提升计算速度近6000倍

如何通过加速度计算速度和位移

谷歌AI开源张量计算库，计算速度暴涨100倍

python中for循环计算和矩阵计算速度对比、time计时方法

苹果M1芯片科学计算（Numpy）计算速度

为什么采用多线程计算速度不升反降？

python提高计算速度的几种方法---学习笔记26

Python编程：解决计算速度慢的一些观点

Tensorflow使用训练好的模型进行测试，发现计算速度越来越慢

神经网络与深度学习笔记（四）：向量化以提高计算速度

多体量子动力学的计算速度提高10000倍

python使用技巧(二十八)：减少字典计算速度的技巧

提高Stable Diffusion十倍计算速度以及解决内存崩溃问题

【笔记】Opencv中integral计算积分图：通过简单几次加减运算就可以得到某一区域内“像素和”这一特征，计算速度非常快，并且这种速度的提升效果随着区域面积的增大和计算次数的增多表现的更为明显

为何GPU可以用于加速人工智能或者机器学习的计算速度（并行计算能力）

C语言利用循环队列实现滑动平均值滤波器，提高计算速度

gpu计算速度变慢，cuda,cudnn等存在，排除硬件问题，那是什么问题呢？

2.1.4 提高计算速度，使用数组(一维、多维)计算，避免for循环一个个计算元素

Hive的底层计算框架默认是MapReduce，还有两种是Tez和Spark这几种的区别是什么？计算速度上为什么会有明显的差异？

提升Android编译速度

提升上传速度

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)