论文简介
原文题目:
中文题目:
发表会议:
发表年份:
作者:
latex引用:
摘要
近年来,用户隐私和信息安全受到广泛关注,移动流量的加密率大幅提高,给传统的流量分类方法带来了相当大的挑战。机器学习方法和深度学习方法已经成为解决这一问题的主流方法。然而,现有的机器学习方法需要手动特征,不能适应新生成的交通模式。深度学习方法能够自动从原始流量序列中学习特征,但会增加计算成本。为了解决这些挑战,本文提出了一种基于马尔可夫链和图神经网络(MEMG)的移动加密流量分类方法。我们使用马尔可夫链来挖掘流的隐藏拓扑信息。然后在此基础上构建流图结构,在图的节点特征中加入流量的序列信息。我们还设计了一个基于图神经网络的分类器,从图中学习拓扑和顺序特征。该分类器可以将图结构映射到嵌入空间,并通过嵌入向量的差异对不同的图结构进行分类。我们在真实数据集和公共数据集上都做了全面的实验。真实数据集包含了我们近期收集到的29款常用移动加密应用的流量,总流量超过11.6万。我们的方法在我们的数据集和公共数据集上的准确率分别比最先进的方法高6.1%和3.5%。我们还将训练时间开销和GPU内存使用分别减少了40%和46%。
存在的问题
以往的马尔可夫方法是通过分析训练集中同一类别的所有样本信息来建立类别级拓扑。然后用最大似然概率对测试样本进行分类。这种方法无法捕获单个流的序列信息,而序列信息被证明是至关重要的信息
论文贡献
- 提出了一种流量的图结构表示,MarkovGraph (MG),捕获了流的隐藏拓扑信息和序列信息。我们已经通过实验证明了MG在减少计算消耗和时间开销方面的优越性。
- 设计了一个基于gnn的分类器,其中包含图卷积网络(GCN)来提取拓扑特征。此外,采用多层感知(Multi-Layer Perceptions, mlp)学习序列特征,并将序列特征与拓扑信息融合在一起,减少单个特征带来的偏差,提高分类性能。
- 从校园网络的29个应用程序中收集了超过116,000个真实交通数据集。我们在我们的数据集和公共数据集上展示了MEMG的准确性和效率。与最先进的分类方法相比,MEMG具有更好的分类精度、最少的训练时间和最少的计算资源消耗。
论文解决上述问题的方法:
使用gnn来提取拓扑信息和序列信息
论文的任务:
图分类
1. 加密交通流的图结构抽象
Markovgraph构建:
定义:
- 样本个数:N
- 标签个数:M
- x i x_i xi:第i个流, x i = [ p 1 i , p 2 i , . . . , p l i i ] x_i = [p_1^i,p_2^i,...,p_li^i] xi=[p1i,p2i,...,plii], 0 < i < N 0<i<N 0<i<N
- p a i p_a^i pai:第i个流,第a个数据包
- Y i Y_i Yi:第i个流的标签, 0 < Y i < = M 0<Y_i<=M 0<Yi<=M
状态系列转移:
假设MTU=1500字节,获取每个流中的前100个数据包的长度
- 状态集合: { S 1 , S 2 , S 3 , . . . , S 10 } \{S_1,S_2,S_3,...,S_{10}\} { S1,S2,S3,...,S10}, S i = [ i − 1 , i ∗ 150 ] 字节 S_i=[i-1,i*150]字节 Si=[i−1,i∗150]字节,举例而言,如果一个数据包的长度为200字节,那么他就属于 S 2 S_2 S2
- 状态转移矩阵: W W W,该矩阵的形状为[10,10]
- 初始向量:流中的第一个数据包
- 状态序列最大长度:100
节点和节点特征:
- 节点:马尔可夫图中的各个状态
- 节点特征:由于每个节点包含多个数据包,很难收集到每个数据包的顺序信息。因此我们对数据包状态序列进行切片操作,每个数据包的上下文是状态序列的前n个数据包和最后n个数据包(我们在实验中使n = 2)。然后,将中心数据包周围的子序列作为数据包的上下文来描述部分序列信息,并使用递归神经网络对处于相同状态的所有数据包的上下文进行压缩;最后形成p维向量(我们在实验中使p = 128)来表示节点特征。
MEMG模型:
2. 实验
对比实验:
总结
优势
结合马尔可夫模型来构造图结构 + 使用上下文来描述节点特征 + 跳跃知识网络减小图结构的规模
数据集
- Mampf: Encrypted traffic classification based on multi-attribute markov probability fingerprints
可读的引用文献
对比实验的相关模型的论文
- Deep fingerprinting: Undermining website fingerprinting defenses with deep learning(DF)
- Robust smartphone app identification via encrypted network traffic analysis(Appscanner)
- Adaptive encrypted traffic fingerprinting with bidirectional dependence(BIND)
- Website fingerprinting at internet scale(CUMUL)
- Mampf: Encrypted traffic classification based on multi-attribute markov probability fingerprints(MaMPF)
流量采集:
- Robust smartphone app identification via encrypted network traffic analysis