Enfoques de aprendizaje profundo para tareas de clasificación de tráfico cifrado (resumen del marco general)

Con su excelente capacidad de aprendizaje automático de funciones, el aprendizaje profundo (DL) se ha convertido en un método ideal para las tareas de clasificación de tráfico cifrado. A continuación, se describe el marco general para tratar las tareas de clasificación de tráfico cifrado en la mayoría de los trabajos relacionados. El diagrama general de la estructura es el siguiente:
inserte la descripción de la imagen aquí

Una definición de tarea de clasificación

Definir explícitamente la tarea de clasificación es el primer paso antes de diseñar un clasificador de tráfico. La tarea de clasificación consta principalmente de tres partes: objetivo, granularidad y requisitos de rendimiento.

Objetivo de clasificación A1

En términos generales, el objetivo de la clasificación del tráfico siempre incluye tres partes: gestión de la red , seguridad y recomendación personalizada . Entre los escenarios relacionados con la gestión de red se encuentran la programación de recursos de red , el aprovisionamiento de QoS y el cobro basado en contenido . La detección de intrusos , la detección de malware y la detección de botnets son escenarios típicos de la seguridad de la red. Además, los proveedores de servicios de red o los proveedores de contenido pueden impulsar sus propias recomendaciones en función de las preferencias de los suscriptores a través de una clasificación detallada del tráfico, como el análisis del comportamiento de los usuarios de Internet .

Granularidad de clasificación A2

  • Clasificación binaria (como normal o anormal, texto claro o encriptado, VPN o no VPN), utilizada principalmente para la detección de intrusos, detección de malware y detección de botnets.
  • Protocolos (como TCP, UDP, HTTP o SMTP), utilizados principalmente para la programación, planificación y asignación de recursos de red.
  • Grupo de servicios (como transmisión, navegación o descarga), como el anterior.
  • Aplicaciones (como Facebook, Youtube o Skype), como las anteriores.
  • Principalmente destinado a sitios que hacen recomendaciones basadas en un análisis de las preferencias de los usuarios de Internet (como motores de búsqueda, compras electrónicas o sitios de redes sociales).
  • Las acciones específicas del usuario en la aplicación (por ejemplo, agregar un artículo a un carrito de compras de Amazon.com, twittear una imagen o hacer una llamada de voz en Skype) son las mismas que las anteriores.
  • Dispositivos inteligentes (como iPhone, iPad, TV Box), ISP puede proporcionar QoS específico de acuerdo con diferentes dispositivos inteligentes.
  • Las identidades de aplicaciones (como números de teléfonos móviles, nombres de cuentas de Facebook y nombres de usuario de Twitter) se utilizan principalmente para auditorías de seguridad y análisis forense de la información.

Requisitos de rendimiento de clasificación A3

Para los requisitos de desempeño para la clasificación, es importante considerar dos factores.

  • capacidad en tiempo real. Desde la perspectiva de la clasificación en tiempo real, los clasificadores se pueden dividir en categorías en línea y fuera de línea. Los clasificadores en línea siempre se utilizan en escenarios en tiempo real, como la programación de recursos de red, la detección de intrusos. Por el contrario, los clasificadores sin conexión suelen utilizarse para el análisis del comportamiento de los usuarios, la facturación basada en aplicaciones o contenidos, etc.
  • Capacidades de peso ligero. Algunos clasificadores deben ser livianos en algunos escenarios específicos, especialmente en algún hardware simple, como puertas de enlace domésticas o enrutadores de borde. Obviamente, con el rápido desarrollo de la computación en la niebla, la aparición de clasificadores livianos ha atraído cada vez más la atención de la investigación académica y las operaciones de red.

B Preparación de datos

Es fundamental entrenar modelos de aprendizaje profundo en conjuntos de datos grandes, equilibrados y representativos. Hay tres formas de preparación de datos, incluida la selección de conjuntos de datos existentes, la recopilación de datos sin procesar y la generación de muestras sintéticas.

Selección del conjunto de datos B1

En la siguiente tabla, se resumen los conjuntos de datos utilizados en trabajos existentes recientes. Aparentemente, la mayoría de los trabajos han elegido conjuntos de datos públicos como ISCX2012 y Moore. Además, algunos trabajos recopilan datos sin procesar de la red o los laboratorios de investigación de ISP para crear sus propios conjuntos de datos, como USTC-TFC2016 e IMTD17. A partir de la cantidad de muestras, se puede ver que la mayoría de los trabajos seleccionaron registros de 70K-1500K para el entrenamiento, y la mayoría de ellos incluyeron muestras de tráfico encriptadas. Mientras que la mayoría de los trabajos eligen 5-17 aplicaciones o protocolos como tareas de clasificación. Además, vale la pena señalar que algunos conjuntos de datos utilizados en trabajos existentes están desequilibrados, lo que tiene algún impacto en el desempeño de las tareas de clasificación.
inserte la descripción de la imagen aquí
En conclusión, no existen conjuntos de datos aceptados públicamente para la investigación debido a las siguientes razones:

  • Debido a la multitud de tipos de tráfico y las frecuentes actualizaciones de aplicaciones, ningún conjunto de datos puede contener todos los tipos de tráfico de aplicaciones.
  • Cubrir todos los escenarios de red, como banda ancha y acceso inalámbrico, PC y acceso a dispositivos móviles, es difícil, requiere mucho tiempo y es costoso.

B2 Recopilación de datos sin procesar

Algunas herramientas de captura de paquetes como Tcpdump pueden recopilar paquetes sin procesar; además, algunos trabajos recopilan registros de flujo utilizando herramientas de flujo como NetFlow.

Aumento de datos B3

El desequilibrio de clases es un problema muy importante a la hora de afrontar la clasificación del tráfico. Como una forma útil de lidiar con el equilibrio de clases, el aumento de datos generalmente se refiere a la generación de muestras sintéticas o sobremuestreo, submuestreo, etc. para mantener el equilibrio de muestra de las clases principales y secundarias.

Preprocesamiento de datos C

En términos generales, los datos de tráfico en conjuntos de datos se pueden dividir en tres tipos: datos de paquetes sin procesar , archivos PCAP y características estadísticas .
Las dos primeras categorías de datos normalmente requieren preprocesamiento por tres razones:

  • Los datos de paquetes sin procesar siempre contienen algunos paquetes irrelevantes, como ARP, DHCP, ICMP.
  • La distribución de características a nivel de paquete puede verse distorsionada por algunas condiciones de red inesperadas, como paquetes retransmitidos, paquetes desordenados, etc.
  • Los archivos PCAP contienen información innecesaria, como el encabezado del archivo PCAP.

Por lo tanto, se requieren algunas medidas de preprocesamiento de datos, como el filtrado de paquetes, la eliminación de encabezados. En el caso de la mayoría de los conjuntos de datos de paquetes sin procesar, se requiere relleno con ceros y truncamiento de longitud fija porque las redes neuronales profundas (DNN) siempre brindan entradas de tamaño fijo, mientras que la longitud de trama de los paquetes del conjunto de datos varía de 54 a 1514 Muy grande (en el caso de TCP). Además, la normalización de datos es crucial para el rendimiento del aprendizaje profundo, que siempre normaliza los datos de tráfico de un conjunto de datos a valores en el rango [−1,+1] o [0,1]. Esto ayuda a que las tareas de clasificación converjan más rápido durante el entrenamiento del modelo.

Diseño de entrada del modelo D

Como componente importante, la entrada de un modelo de aprendizaje profundo tiene una gran influencia en el rendimiento del modelo durante el entrenamiento y las pruebas. En general, las entradas de los modelos de clasificación de tráfico basados ​​en aprendizaje profundo se pueden clasificar en tres tipos: paquetes de datos sin procesar , características de tráfico y una combinación de características y datos sin procesar .

  • Paquete de datos sin procesar . La mayoría de los trabajos eligen datos de paquetes sin procesar como entrada al modelo. En este caso, generalmente se requiere el relleno con ceros y el truncamiento, y la longitud del relleno con ceros y el truncamiento generalmente oscila entre 700 y 1500 bytes.
  • características del tráfico . En términos generales, las características del tráfico se pueden dividir en tres categorías: características de nivel de paquete (como la longitud del paquete y el tiempo entre llegadas del paquete), características de nivel de flujo (como la duración del flujo, el total de paquetes en el flujo) y características estadísticas ( como la longitud promedio del paquete y el promedio de bytes enviados o recibidos por segundo).
  • Combine características y datos sin procesar .

E diseño de pre-entrenamiento

Es bien sabido que el aprendizaje profundo requiere una gran cantidad de datos etiquetados durante el entrenamiento; sin embargo, recopilar y etiquetar grandes conjuntos de datos lleva mucho tiempo y es costoso. Los conjuntos de datos de tráfico no son una excepción, especialmente el tráfico encriptado, ya que las herramientas de anotación de tráfico actuales, como DPI, no pueden manejar el tráfico encriptado. Por el contrario, los datos de tráfico no etiquetados son abundantes y fácilmente disponibles. Por lo tanto, algunos investigadores comenzaron a explorar cómo usar datos de tráfico sin etiquetar fácilmente obtenidos combinados con una pequeña cantidad de datos de tráfico etiquetados para una clasificación precisa del tráfico. De hecho, este es un tipo típico de aprendizaje semisupervisado, mediante el cual un modelo se puede entrenar previamente usando una gran cantidad de datos de tráfico sin etiquetar, luego se transfiere a una nueva arquitectura y se usa para volver a entrenar el modelo. Además, el entrenamiento previo también se puede usar para reducir la dimensionalidad, lo que hace que el modelo sea liviano, lo cual es muy importante en algunos escenarios. Además, los grandes conjuntos de datos consumen recursos computacionales y de memoria significativos.

Diseño de estructura modelo F

La arquitectura del modelo es el factor más crítico para la clasificación del tráfico. Actualmente, los modelos comúnmente utilizados para el aprendizaje profundo incluyen:

  • MLP
  • CNN
  • RNN
  • SAE
  • PIES
  • DAE
  • SIN EMBARGO

referencias

Wang P, Chen X, Ye F, et al. Una encuesta de técnicas para la clasificación de tráfico encriptado de servicios móviles usando aprendizaje profundo [J]. Acceso IEEE, 2019, 7: 54024-54033.

Supongo que te gusta

Origin blog.csdn.net/airenKKK/article/details/124534561
Recomendado
Clasificación