Investigación sobre tecnología de clasificación de tráfico de red basada en aprendizaje profundo

Propósito : La clasificación del tráfico de red siempre ha sido uno de los puntos críticos de los departamentos académicos, industriales y de supervisión de redes. Se refiere a dividir el tráfico mixto en diferentes categorías de tráfico en función de las características o parámetros de diferentes aplicaciones o protocolos de red. Por un lado, el campo de la seguridad de la red necesita identificar el tráfico intrusivo; por otro lado, debe clasificar y analizar el tráfico de las diferentes aplicaciones al realizar la gestión de la red, de manera de controlar y asignar recursos de manera razonable para asegurar la QoS de la red. Con el aumento masivo en la cantidad de datos y tipos de tráfico de red, los métodos de clasificación tradicionales son difíciles de cumplir con los requisitos, y los algoritmos basados ​​en el aprendizaje automático se han convertido en un punto de acceso de investigación en la clasificación del tráfico de red. Con el objetivo del cuello de botella causado por la ingeniería de características de aprendizaje automático, este documento estudia la aplicación de algoritmos de aprendizaje profundo basados ​​en redes neuronales convolucionales en la clasificación del tráfico de red.
Métodos : 1. La red neuronal convolucional tridimensional se aplica a la clasificación del tráfico de red.
2. Apuntando a los errores causados ​​por la clasificación forzosa de categorías desconocidas en categorías conocidas por redes neuronales convolucionales,
este artículo mejora la capa de juicio de categoría de la red. Mediante experimentos de simulación, este trabajo verifica que cuando el juicio de categoría es incorrecto (incluida la categoría desconocida), la distribución del valor de probabilidad correspondiente a la categoría con mayor probabilidad es obviamente diferente de la distribución del valor de probabilidad cuando el juicio es correcto. Con base en los hallazgos anteriores, este artículo establece un umbral dinámico para la capa de juicio de categoría. Bajo el umbral óptimo encontrado en el entrenamiento, este artículo puede identificar de manera efectiva las categorías desconocidas.
Inserte la descripción de la imagen aquí
El módulo de preprocesamiento de datos se divide en cuatro partes: corte de flujo de datos, extracción de datos clave, conversión de dimensiones y combinación de series de tiempo.
Inserte la descripción de la imagen aquí
1. Corte de flujo de datos: divida el tráfico original en unidades de flujo de datos discretas, y cada flujo de datos es una muestra. El estándar de evaluación del flujo de datos es el paquete de datos con la misma tupla de 5 (dirección IP de origen, número de puerto de origen, dirección IP de destino, número de puerto de destino y protocolo de capa de transporte).
2. Extracción de datos clave: primero extraiga los primeros paquetes de datos de cada flujo de datos, descarte los paquetes de datos en exceso, si la longitud del flujo de datos es insuficiente, complete 0 paquetes de datos al final. Luego anonimice, es decir, elimine la dirección IP de la capa IP y la dirección MAC de la capa de enlace de datos.
3. Conversión de dimensiones: unifique la longitud del paquete de datos, es decir, extraiga el primer / byte de datos en cada paquete de datos, descarte el exceso de datos, si la longitud del paquete de datos es insuficiente, agregue 0 al final. Luego, cada byte de datos se codifica por separado con w bits en caliente, y cada paquete de datos se convierte en datos bidimensionales de / xm. Si cada byte de los datos de entrada se considera un valor de píxel, la salida de este paso es una imagen bidimensional en escala de grises, que puede analizarse mediante el procesamiento de imágenes.
Por ejemplo, los datos de entrada constan de tres partes, y los valores posibles son
{0,1,2}, {12,13,14}, {20,21,22}, luego el código one-hot correspondiente a cada grupo de datos de entrada El resultado es 9 dígitos, que representan respectivamente si la primera parte es 0, la primera parte es 1, si la primera parte es 2, si la segunda parte es 12, si la segunda parte es 13, si el la segunda parte es 14, y la tercera parte es 19 ?, ¿la tercera parte es 20 ?, ¿la tercera parte es 21? Si la entrada x = (l, 14,  20), entonces la salida = ((0, 1, 0), (0, 0, 1), (1,0, 0)), el valor posible de cada byte de datos. Es de 0 a 255, un total de 256 valores, que se pueden codificar como datos de salida de 256 bits. Con el fin de reducir la cantidad de cálculos del sistema para mejorar el rendimiento en tiempo real y adaptarse al entorno de simulación de este documento, este documento normaliza los datos de entrada a 0-16 para formar un código de 16 bits.
4. Combinación de tiempos: Will? Los datos bidimensionales correspondientes a los siete paquetes de datos se combinan secuencialmente en 1 millón de datos tridimensionales. Este paso es similar a la combinación de varios fotogramas de imágenes en un archivo de vídeo. Los datos de salida se pueden utilizar como
grupo de control de entrada de la red neuronal convolucional tridimensional en el procesamiento de video : 1. Procesamiento previo unidimensional Después de completar el trabajo de corte del flujo de datos y extracción de datos clave, los datos extraídos de cada paquete de datos se conectan secuencialmente para formar datos de series de tiempo unidimensionales con una
longitud de l n. 2. Preprocesamiento bidimensional de tipo de corte Si la longitud de la nueva dimensión se establece en l, los datos de la serie temporal unidimensional se cortarán en i segmentos de acuerdo con la longitud de cada segmento (l n) / i, y las i filas de los datos bidimensionales se formarán en secuencia.
3. El preprocesamiento bidimensional del tipo de codificación unidimensional realiza datos de series de tiempo unidimensionales en codificación unidimensional para formar datos de entrada bidimensionales.
Inserte la descripción de la imagen aquí
Inserte la descripción de la imagen aquí
Conjunto de datos : USTC-TFC2016,

Inserte la descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/qq_43360777/article/details/105727139
Recomendado
Clasificación