【GNN+加密流量】Graph based encrypted malicious traffic detection with hybrid analysis of multi-view...

文章目录

论文简介

论文简介

原文题目：Graph based encrypted malicious traffic detection with hybrid analysis of multi-view features
中文题目：基于图的多视图特征混合分析加密恶意流量检测
发表期刊：Information Sciences
发表年份：2023/5/22
作者：Yueping Hong, Qi Li, Yanqing Yang, Meng Shen
latex引用：

@article{hong2023graph,
  title={Graph based Encrypted Malicious Traffic Detection with Hybrid Analysis of Multi-view Features},
  author={Hong, Yueping and Li, Qi and Yang, Yanqing and Shen, Meng},
  journal={Information Sciences},
  pages={119229},
  year={2023},
  publisher={Elsevier}
}

摘要

目前，TLS加密协议得到了广泛的应用。在保护传输信息的安全性和完整性的同时，也使恶意行为的检测变得更加困难。近年来，研究人员提出了许多加密恶意流量检测方法。然而，现有的方法存在一些不足。

首先，虽然研究人员从不同的角度提取了多视图特征，可分为基于特征工程的矢量化特征和基于原始数据的图像特征，但现有方法无法充分融合不同表现形式的特征。
其次，现有的方法大多没有充分分析不同加密流量之间的相关性。
第三，现有的基于相关性分析的方法处理效率低，不能应用于实际网络。

在本文中，我们提出了MalDiscovery，一种发现加密恶意流量的新技术来解决上述所有问题。对于加密的恶意流量，MalDiscovery构造属性KNN图，其中加密会话作为节点，根据图像特征的相似度构造KNN图，矢量化特征作为对应节点的属性。然后利用GraphSAGE模型通过相关性分析收集相关节点信息，丰富每个节点的嵌入。最后，我们基于更丰富的嵌入实现了图中节点的精确二值分类。实验结果表明，MalDiscovery算法可以达到99.9%左右的准确率，显著优于所有比较方法。

存在的问题

现有方法从不同方面提取了各种加密流量特征。这些特征通常被研究者称为多视图特征，并根据其表示形式将其分为矢量化特征和图像特征两类。然而，现有的研究通常只使用一类特征，忽略了补充信息，或者直接将几个特征拼接在一起，这会破坏图像的相关信息，并给矢量化的特征引入噪声。
基于不同样本之间的相关性，将加密流量样本构建成一个图，并利用RandomWalk[10]、GCN[11]等相关分析模型来发现图中的恶意样本节点，从而实现样本的恶意检测。然而，这些方法在测试未知流量的阶段是低效的，因为它们使用的是基于转换图的模型。

论文贡献

为了巧妙地融合多视图特征，构造了一个带有属性的KNN图，通过图像特征的相似性分析样本之间的相关性，并将矢量化的特征组合为KNN图中每个节点的属性。
为了利用相关性进行检测，提出了MalDiscovery，它利用GNN模型来捕获属性KNN图中不同节点之间的相关性信息。
为了提高检测效率，我们放弃了GCN[11]等换能型模型，使用归纳模型GraphSAGE[12]进行相关分析。

论文解决上述问题的方法：

构造了一个带有属性的KNN图，巧妙地融合了多视图特征

利用GNN模型来捕获属性KNN图中不同节点之间的相关性信息

为了提高检测效率，使用了GraphSage

论文的任务：

恶意流量分类（节点级别的分类任务），二分类。

1. MalDiscovery

在这里插入图片描述
提出的方法分为两个相对独立的环节：

离线训练：收集大量的训练数据，这使得系统可以使用大量的时间来完成模型的训练

在线测试：与其他模型不同的是，我们将完成对样本的高效处理，以满足在线流量检测的效率要求

四个模块：

特征提取模块

在现有的加密流量研究工作中，研究人员从不同方面提取了加密流量的各种特征。这些特征通常以矢量化特征和图像特征两种形式呈现。
- 矢量化特征：基于特征工程提取的加密流量信息作为向量中的值
包括握手信息和会话元数据
- 图像特征：将流量中的所有信息处理成二进制形式，每个字节对应一个灰度图像像素。
由于图像特征来源于加密流量的原始数据，因此可以最大程度地保留流量的原始内容。在TLS通信中，客户端和服务器之间交换握手的明文数据，协商后续加密连接中使用的参数，如版本、密码套件、扩展、证书等。先前的研究表明，这些信息片段在加密恶意流量检测中是有效的。因此，图像特征在加密恶意流量检测研究中受到了广泛的关注和利用。然而，在加密流量中，应用数据在握手后生成的图像存在大量的噪声，因此在提取图像特征的过程中，图像大小M的选择就显得尤为重要。如果选择的内容太小，图像将不能完全描述样本信息，如果选择的内容太大，信息冗余将影响检测模型的准确性和效率。为了完整地保留握手信息和适当的应用数据，我们在经过充分的实验后，选择原始加密会话的前784字节进行灰度图像生成，该过程分为三个重要阶段:流量分割、会话清洗和图像生成。

该模块处理流程如下：
1. traffic segmentation：在这个过程中，我们以会话作为分割的粒度，将连续的原始加密流量分成多个会话文件，保存为pcap文件。
2. session cleaning：对数据链路层和网络层的MAC地址和IP地址进行匿名化处理，去除干扰分类结果的特定消息；然后，我们删除了可能导致模型误判的空流和重复数据。
3. image generation：首先，我们处理清理后的会话文件，这些文件具有相同大小的统一长度，即784字节。当文件长度大于784字节时，会被拦截。如果小于784字节，则在文件末尾用0x00补充。由于每个字节可以转换为[0,255]范围内的整数，因此每个字节可以对应一个灰度像素值。之后，我们将字节序列重构成一个28 × 28像素的矩阵，并进一步构造成一个28 × 28像素的灰度图像。
属性KNN图构建模块

对于不同类型特征的融合，最直接的方法是使用不同的个体学习模型和异构积分器。然而，它有以下缺点：
- 每一类特征都是独立学习的，无法得到更丰富的加密流量嵌入
- 忽略了加密流量样本数据之间的关系
- 基于不同类型个体分类器的异构积分器方法耗时长。
为了解决这些问题，我们设计了一个属性KNN图构建模块，该模块可以在会话级融合图像特征和矢量化特征，完整地描述加密会话之间的相关信息。

该模块处理流程如下：
1. 根据每个加密会话形成的灰度图（28*28）来构造相似矩阵S，该矩阵用于描述各个会话之间的相似度。具体方法如下： $S_{i,j} = e^{-\frac{||x_i - x_j||^2}{t}}$
2. 根据相似度矩阵，对每个会话选取前K个与之相似的会话，将他们连线，从而构成KNN图
3. 这样一来，会话就成为了图的节点，而节点特征就采用之前收集的矢量化特征，维度为N*d，其中N为会话节点数量，d为会话特征维度。
GraphSAGE模块

采用GraphSAGE+MLP模型对图进行训练和分类，二分类。
检测模块

检测流量是正常还是恶意。

总结：

构图：以会话为节点，节点特征选取会话的矢量化特征，边通过计算由会话构成的灰度图的相似度来构建。

2. 实验

数据集

CTU-13[38]：是布拉格捷克技术大学(CTU)在13种不同场景中捕获的特定恶意软件产生的流量数据集。在每个场景中，CTU执行一个特定的恶意软件片段，该恶意软件使用多种协议，能够通过多种不同的操作来生成恶意流量。该恶意软件包括Dridex-A、Kazy、Upatre、Zbot、Neris、Rbot等，它们都可以通过VirusTotal上的多个检测引擎检测出来[39]。而正常的流量来自于数据传输、社交网络通信和浏览器的使用。早在2008年，僵尸网络攻击就开始大规模地利用流量加密协议来隐藏网络行为的恶意，以逃避传统的安全保护和检测。因此，在2011年，在CTU-13数据集中收集了一定数量的加密交通数据。我们从CTU-13数据集中提取了2619个恶意加密会话。
MCFP[40]：数据集由位于布拉格的捷克技术大学(CTU)于2013年至2018年在其恶意软件捕获设施项目中发布，用于捕获和分析持续的恶意软件流量。它服务于大量的僵尸网络攻击流量和使用TLS协议通信的良性流量。在早期，该数据集仅包含少量加密流量，但随着加密协议的广泛部署，在MCFP数据集的更新中越来越倾向于收集加密流量。近年来，MCFP中加密流量的比例逐渐增加，其包含的加密流量远远超过CTU-13。在实验中，我们只保留了完整的加密会话进行分析，并从MCFP数据集中的cctu - malware - capture - botnet -153-1、cctu - malware - capture - botnet -173-1、cctu - malware - capture - botnet - 240-1、cctu - malware - capture - botnet -241-1、cctu - malware - capture - botnet -275-1、cctu - malware - capture - botnet -322-1中提取了6个恶意pcap文件，其中包含61101个恶意加密会话。对于良性样本，我们从MCFP的CTU-Normal-20到CTU-Normal-32中提取了13个pcap文件，其中包括69358个良性加密会话。

在收集到加密的流量数据后，我们对从CTU-13和MCFP数据集中提取的数据进行会话级处理，并根据数据集中pcap-文件的标签在pcap-文件中标注相应的加密会话，得到加密会话的显式标签。在我们的实验中，我们将加密的恶意流量标记为1，将正常流量标记为0。由于后台流量涉及用户隐私，本文未将其作为实验数据集。结果，我们获得了63720个加密的恶意流量和69358个加密的良性流量作为本次实验的数据集，其中80%作为训练数据集，10%作为验证数据集，10%作为测试数据集。恶意加密流量的具体数据分布如表2所示。

baseline
- 支持向量机
- 线性回归
- 决策树
- 随机森林
- AdaBoost
- CNN
- TSCRNN
- DeepWalk
- GCN
参数和评估指标

参数：
- GraphSAGE的embedding_size：100
- 学习率：0.001
- GraphSAGE每层采样数：10
- 聚合函数：MeanPooling
- K=15
评估指标：
- ACC、Precision、Recall和macro-F1
实验结果
分析

K的影响：

总结

论文内容

学到的方法

理论上的方法：

构图：以会话为节点，节点特征选取会话的矢量化特征，边通过计算由会话构成的灰度图的相似度来构建。
论文优缺点
优点：
1. 属于非常中规中矩的论文，将前人的研究成果结合起来。
缺点：
1. 缺乏闪光点。

数据集

CTU-13
MCFP

可读的引用文献

综述：Machine learning-powered encrypted network traffic analysis: a comprehensive survey
Adversarial sample attack and defense method for encrypted traffic data
Tantra: timing-based adversarial network traffic reshaping attack
Fine-grained webpage fingerprinting using only packet length information of encrypted traffic
Optimizing feature selection for efficient encrypted traffic classification: a systematic approach
TSCRNN: a novel classification scheme of encrypted traffic based on flow spatiotemporal features for efficient management of IIoT