基于深度学习的网络流量分类技术研究

目的：网络流量分类一直是学术界、产业界和网络监管部门共同关注的热点之一，是指将混合流量分成不同的流量类别，依据是不同的网络应用或协议的特征或参数。一方面，网络安全领域需要识别入侵流量；另一方面，进行网络管理时需要对不同应用的流量分类分析，从而合理控制和分配资源，保证网络ＱｏＳ。随着网络流量的数据量和种类的大量增加，传统分类方法难以满足要求，基于机器学习的算法成为网络流量分类的研宄热点。针对机器学习特征工程造成的瓶颈，本文研究了以卷积神经网络为主的深度学习算法在网络流量分类中的应用。
方法：1.三维卷积神经网络应用于网络流量分类。
2.针对卷积神经网络将未知类别强行划分为己知类造成的差错，
本文对网络的类别判断层进行了改进。通过仿真实验，本文验证了类别判断错误（包括未知类别）时，概率最大的类别对应概率值的分布明显区分于判断正确时概率值的分布。根据以上发现，本文为类别判断层设置了动态阈值，在训练发现的最优阈值下，本文能有效识别未知类别。
在这里插入图片描述
数据预处理模块分为数据流切割、关键数据提取、维度转换、时序组合四部分。

１．数据流切割：将原始流量分为离散数据流单元，每个数据流为一个样本。数据流的判断标准是具有相同五元组（源ＩＰ地址、源端口号、目的ＩＰ地址、目的端口号和传输层协议）的数据包。
２．关键数据提取：首先提取每个数据流的前《个数据包，丢弃超过部分的数据包，若数据流长度不足则在末尾补全０数据包。然后进行匿名化，即去掉ＩＰ层的ＩＰ地址和数据链路层的ＭＡＣ地址。
３．维度转换：统一数据包的长度，即提取每个数据包中的前／字节的数据，丢弃超过部分的数据，若数据包长度不足则在末尾补０。然后对每字节的数据分别进行ｗ比特的ｏｎｅ－ｈｏｔ编码，每个数据包转换为／ｘｍ的二维数据。若将输入数据的每个字节视为像素值，则此步骤的输出为二维灰度图，可以通过图像处理的方法进行分析。
例如输入数据由三部分组成，可能取值分别
是｛０，１，２｝、｛１２，１３，１４｝、｛２０，２１，２２｝，则每组输入数据对应的ｏｎｅ－ｈｏｔ编码的结果为９位，分别代表第一部分是否为０、第一部分是否为１、第一部分是否为２、第二部分是否为１２、第二部分是否为１３、第二部分是否为１４、第三部分是否为１９、第三部分是否为２０、第三部分是否为２１。若输入ｘ＝（ｌ，１４，２０），则输出＝（（０，１，０），（０，０，１），（１，０，０）），每字节数据的可能取值为０？２５５，共２５６种取值，可编码为２５６比特的输出数据。为了减少系统计算量以提高实时性和适应本文仿真环境，本文将输入数据归一化至０？１６，构成１６位编码。
４．时序组合：将？７个数据包对应的二维数据按顺序组合为lｍn的三维数据，此步骤类似于多帧图像组合为视频文件，输出数据可作为视频处理中的三维卷积神经网络的输入
对照组：１．一维预处理在完成数据流切割、关键数据提取的工作后，将各数据包中提取出的数据依次连接，构成长度为ln的一维时序数据。
２．切割式二维预处理若设定新增维度的长度为l，则将一维时序数据按每段长度为（ln）／i切割为i段，按顺序依次构成二维数据的i行。
３．ｏｎｅ－ｈｏｔ编码式二维预处理将一维时序数据进行ｏｎｅ－ｈｏｔ编码，构成二维输入数据。
在这里插入图片描述

数据集：ＵＳＴＣ－ＴＦＣ２０１６、

在这里插入图片描述

基于深度学习的网络流量分类技术研究

猜你喜欢