前言

本篇博客出于学习交流目的，主要是用来记录自己学习后的理解，过程中遇到的问题和心路历程，方便之后回顾。过程中可能引用其他大牛的博客，文末会给出相应链接，侵删！

REMARK：本人菜鸟一枚，如有理解错误还望大家能够指出，相互交流。也是第一次以博客的形式记录，文笔烂到自己都看不下去，哈哈哈

这篇学习笔记关于一种高效Top-k的频繁效用项集挖掘算法。
参考文献：Efficient Algorithms for Mining Top-K High Utility Itemsets

本博客介绍一些高效用频繁模式挖掘以及传统高效用top-k挖掘的基本概念，具体算法在Top-k高效用项集挖掘学习笔记(二) TKU，Top-k高效用项集挖掘学习笔记(三) TKO 中详细记录，请手动跳转。

正文

Top-k挖掘算法研究意义：解决传统高效用模式频繁项集挖掘需要人为设置阈值的问题，太大或太小的阈值都不好，而重复计算不同阈值结果又造成多次无用重复执行。

一些可能会涉及到的定义：
高效用项集 (HUI)：high utility itemset ，如果一个项集不小于用户自定义的最小效用阈值；
有价值的交易效用 (TWU)：transaction-weighted utilization，一种高效用频繁挖掘模型，也作项集的效用值上界值；
高价值的交易效用项集 (HTWUI)：high transaction-weighted utilization itemset ，TWU中效用值大于阈值的项集，由于TWU是效用值上界，所以HTWUI一定包含HUI；

传统基于TWU的模型，包含两个步骤，phase I ：获得所有HTWUI集合（由于TWU是效用值上界，所以HTWUI一定包含HUI）；phase II：再基于HTWUI集合具体计算获得HUI；

Top-k高效用项集挖掘即在考虑效用值场景下进行Top-k挖掘。

Top-k高效用项集挖掘面临的主要挑战：
1）高效用项集不具有单调性或反单调性，所以剪枝是很有难度的；
2）怎么结合现有TWU算法和top-k概念。因为在phase I 时候如果确保所有HTWUI一定包含HUI，起始设置最小阈值为0，但这可能会带来一个很大的搜索空间；
3）没有给定的阈值，随着算法的进行不断更新边界阈值， $min \_util_{Border}$ (border minimum utility threshold), $min \_util_{Border}$ 最初为0，如果不能高效的更新将面临巨大的计算时间和存储开销；
4）如何在不丢失Top-k HUIs 的情况下高效的增大阈值 $min \_util_{Border}$

论文中提出了两种算法：
(1)TKU (mining Top-K Utility itemsets) ；在Top-k高效用项集挖掘_学习笔记(二) TKU会介绍，其中还包括五种优化策略：PE、NU、MD、MC、SE
(2)TKO (mining Top-K utility itemsets in One phase) ；Top-k高效用项集挖掘_学习笔记(三) TKO 中介绍，还包括三个剪枝策略：RUC、RUZ、EPB；请手动跳转。

在开始正式算法之前，还是先看一堆枯燥的定义，我也很绝望，不过后面一直要用到，所以必须认真理解！！！大部分是我按自己的理解解释的，英语原版看原始论文。

高效用项集基本定义
总项集（distinct items） $I^*= \left \{ I_{1},I_{2},\cdots ,I_{m}\right \}$ ；事务数据集（transactional database） $\mathcal{D}= \left \{ T_{1},T_{2},\cdots ,T_{m}\right \}$ ；交易记录 $T_r\in \mathcal{D}$ 是 $I^*$ 的子集， $r$ 是 $Tid$ ；并且对于每个 $I_{j}\in T_r$ 都有一个内部效用值 $Q\left ( I_{j},T_r \right )$ ，同时对于每个 $I_{j}\in I^*$ 都有一个外部效用值 $P\left ( I_{j},\mathcal{D} \right )$ ；一个项集 $X= \left \{ I_{1},I_{2},\cdots ,I_{L}\right \}$ 共有 $L$ 个不同的项， $L$ 也称作项集 $X$ 的长度； $L-itemset$ 表示项集长度为 $L$ 。

Definition 1. 项的绝对效用值(Absolute utility of an item)： $EU\left ( I_{j},T_r \right )$

E U (I_{j}, T_{r}) = Q (I_{j}, T_{r}) \times P (I_{j}, D)

$EU\left ( I_{j},T_r \right )=Q\left ( I_{j},T_r \right )\times P\left ( I_{j},\mathcal{D} \right )$ 这个很好理解，给定项

I_{j} \in I^{*}

$I_{j}\in I^*$ 和交易记录

T_{r} \in D

$T_r\in \mathcal{D}$ ，项的绝对效用值就是内部效用乘外部效用。

Definition 2. 一条交易中某个项集的绝对效用值(Absolute utility of an itemset in a transaction)： $EU\left ( X,T_r \right )$

E U (X, T_{r}) = \sum_{I_{j} \in X} (I_{j}, T_{r})

$EU\left ( X,T_r \right )=\sum_{I_{j}\in X}\left ( I_{j},T_r \right )$ 就是把交易记录

T_{r}

$T_r$ 中求项集

X

$X$ 中各项效用值得累加和。

Definition 3. 项集在整个数据集中的绝对效用值(Absolute utility of an itemset in a database)： $EU\left ( X \right )$

E U (X) = \sum_{T_{r} \in D \land X \subseteq T_{r}} (I_{j}, T_{r})

$EU\left ( X\right )=\sum_{T_r\in \mathcal{D} \wedge X\subseteq T_r}\left ( I_{j},T_r \right )$ 同样，满足条件累加求和，面向整个数据集。

Definition 4. 交易效用值和总效用值(Transaction utility and total utility)： $TU\left ( T_r \right )$ and $TotalU_{DB}$

T U (T_{r}) = E U (T_{r}, T_{r})

$TU\left ( T_r \right )=EU\left ( T_r,T_r \right )$ 计算整条交易的效用值；

T o t a l U_{D B} = \sum_{T_{r} \in D} T U (T_{r})

$TotalU_{DB}=\sum_{T_r\in \mathcal{D}}TU\left ( T_r \right )$ 计算这个数据集的效用值。

Definition 5. 项集在整个数据集中的相对效用(Utility of an itemset in a database)： $U\left ( X \right )$

U (X) = \frac{E U (X)}{T o t a l U_{D B}}

$U\left ( X \right )=\frac{EU\left ( X \right )}{TotalU_{DB}}$ 即项在整个数据集效用的占比

Definition 6. 高效用项集(High utility itemset)： $HUI$
项集 $X$ 被称为高效用项集，当且仅当 $U\left ( X \right )\geq min\_util$ ，或 $EU\left ( X \right )\geq abs\_min\_util$ ， $abs\_min\_util=min\_util\times TotalU_{DB}$ 。

Definition 7. 高效用项集挖掘(High utility itemset mining)：
设置参数 $\delta \left ( 0 \%\leq \delta \leq 100\% \right )$ 为最小效用阈值，数据集 $\mathcal{D}$ 中完整集合 $HUIs$ 用 $f_{HUI}\left ( \mathcal{D},\delta \right )$ 表示。HUI挖掘的目标就是挖掘 $f_{HUI}\left ( \mathcal{D},\delta \right )$ 。

看下面这个例子

表1和表2分别给出了交易数据集和项对应的外部效值，根据上诉的定义，如果这设置 $abs\_min\_util=30$ ，我们能够计算得到HUIs完整集合为：
$\left \{ \left \{ BD \right \}: 30,\left \{ ACE \right \}: 31,\left \{ BCD \right \}: 34,\left \{ BCE \right \}: 31,\left \{ BDE \right \}: 36,\left \{ BCDE \right \}: 40,\left \{ ABCDEF \right \}: 30 \right \}$

由于考虑效用值后，项集与其超集之间不存在直接的单调性或反单调性，所以只能通过不断缩小搜索空间来剪枝。 $transaction-weighted\ downward\ closure\ property$ (TWDC property) 这个策略基于以下的定义可以实现，对！又是定义！

Definition 8. 有价值的交易效用值(Transaction-weighted utilization)： $TWU\left ( X \right )$

T W U (X) = \sum_{T_{r} \in D \land X \subseteq T_{r}} T U (T_{r})

$TWU\left ( X \right )=\sum_{T_r\in \mathcal{D} \wedge X\subseteq T_r}TU\left ( T_r \right )$ 计算这个数据集中包含

X

$X$ 项集的交易的交易效用值累加和。

Definition 9. TWU值高的项 (High TWU itemset)：
如果项 $X$ 满足 $TWU\left ( X \right )\geq abs\_min\_util$ ，则 $X$ 是TWU值高的项。

Property 1 (TWDC property)： $transaction-weighted\ downward\ closure\ property$ ，如果项 $X$ 不是高TWU值得项，那么 $X$ 对应的所有超集的效用值都低。

这个挺好理解的，原文给出了数学证明，有兴趣可以看，只要思想就是包含超集的项一定包含 $X$ ，所以超集的TWU肯定不大于 $X$ 的TWU，而超集EU值又不大于TWU值，所以超级的EU肯定也小于阈值。

Definition 10. Top-k高效用项集(Top-k high utility itemset)： $top-k\ HUI$
项 $X$ 是Top-k高效用项集，当且仅当存在少于K个项集的效用值大于 $EU\left ( X \right )$ 在过程 $f_{HUI}\left ( \mathcal{D},0 \right )$ 中。

Property 2：设 $\mathcal{D}$ 中的完整 $top-k\ HUIs$ 集合为 $KH$ ， $KH$ 可能包含项集小于k个，当 $\left |f_{HUI}\left ( \mathcal{D},0 \right ) \right |\leq k$ ，也有可能大于k个项集，因为可能有些项集具有同样的效用值。

Definition 11. 优化的最小效用阈值(Optimal minimum utility threshold)： $\delta^*$
参数 $\delta^*$ 成为优化的最小效用阈值，当且仅当不存在阈值 $\delta> \delta^*$ 使得 $\left |f_{HUI}\left ( \mathcal{D},\delta \right ) \right |= \left | KH \right |$ ；或者也可以认为 $\delta^*=min\left \{ U\left ( X \right )|X\in KH \right \}$ 。也就是当前KH中 $X$ 最小的效用值。

Problem Statement：
给定一个交易数据库 $\mathcal{D}$ 和想要挖掘出 $HIUs$ 的数目 $k$ ，等价于发现那些在 $\mathcal{D}$ 中拥有效用值大于 $\delta^*$ 的项集集合。

相关工作

高效用项集挖掘
创建的有两类，一类是two-phase：包括两个步骤，第一步获取候选项集，第二步计算实际高效用项集。常见算法有 $IHUP、IIDS、UP-Growth$ （这个目前最优，并且在第一阶段有四个优化策略，DGU、DGN、DLU、DLN，本篇TKU的基础）；另一类是one-phase：不生成候选项集，直接生成最终高效用序列。常见的算法有 $d^2HUP、HUM-Miner$ （用了 $utility-lists$ 结构本篇TKO的基础）。

Top-k项集挖掘
这个就是传统的了，但是都没有考虑效用值。

Top-k高效用项集挖掘
最先提出这个概念的是Chan，但是没有考虑定量的项，和这篇论文的概念有些不一样；Zihayat提出T-HUDS用于挖掘流数据的top-k HUIs；还有一些人的工作，对理解本篇论文没什么用，就不介绍了。

总结

这篇博客主要是一些概念，为了方便理解后面的TKU算法和TKO算法，具体算法请手动跳转。

Top-k高效用项集挖掘_学习笔记(一) 基础概念

前言

正文

总结

猜你喜欢