文献参考：Pattern-Preserving k-Anonymization of Sequences and its Application to Mobility Data Mining - 代码天地

文献参考：Pattern-Preserving k-Anonymization of Sequences and its Application to Mobility Data Mining

其他 2020-09-18 13:40:41 阅读次数: 0

问题领域

数据挖掘中的序列模式挖掘

问题描述

用户的行为与时间戳一起存储，使事件的时序性成为强大的信息源，日志提供了某段时间用户的全部活动，在顺序数据的情况下，一个小的动作序列很容易被几个人引用，从而让攻击者访问整个动作序列。现有的匿名技术没有考虑序列数据的内在敏感性。

所提方法

所提新技术提供一个匿名的序列数据集，同时保留序列模式挖掘到的结果。使用结合 k-匿名(所公开的数据集是这样的，任何序列都不能与至少 k1 个其他序列区分开来)和序列隐藏方法的方法。

方法在于将匿名化问题重新表述为隐藏 k-非频繁序列的问题，即转换原始序列数据库，使得原始数据集中支持度小于 k 的序列不能再被挖掘。假设攻击者知道属于一个人的部分序列，并且他/她也知道这个人存在于数据库中，那么他/她就有 1/k 的概率重建整个序列。

给定一个支持阈值，超过阈值的被定义为频繁序列。

算法

保证最后的匿名表满足K匿名，并且原表和匿名表是相似的。
在这里插入图片描述

The BF-P2kA algorithm：

第一步：构建前缀树PT：
第二步：前缀树匿名化：给定最小支持阈值k，小于k的阈值将被从前缀树中删除。然后这些不常见序列的一部分被重新附加到前缀树中。

实际上，该函数通过修剪所有不频繁的子树并更新到最后一个频繁节点的路径支持来修改树。
在这里插入图片描述

第三步:对前缀树进行后处理，生成序列的匿名数据集。

定义 4 (Levenshtein 距离)。S 和 T 之间的编辑距离由将一个序列转换成另一个序列所需的最小操作数给出，其中操作是插入、删除或替换单个元素。

例子：

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
两种衡量方式。

猜你喜欢

转载自blog.csdn.net/weixin_42253964/article/details/106613262

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)