【Lectura en papel】EULER: Detección del movimiento lateral de la red a través de la predicción de enlace de tiempo escalable (NDSS-2022)

Autor: Universidad George Washington - Isaiah J. King, H. Howie Huang
Cita: King IJ, Huang H H. Euler: Detectar el movimiento lateral de la red a través de la predicción de enlaces de gráficos temporales escalables [C]. Actas 2022 Simposio de seguridad de redes y sistemas distribuidos, 2022 .Dirección original
: https://dl.acm.org/doi/pdf/10.1145/3588771
Dirección del código fuente: https://github.com/iHeartGraph/Euler
Conjunto de datos: LANL



0. Resumen

  Se propone un marco para EULER. Consiste en un modelo de red neuronal independiente del gráfico apilado en una capa de codificación de secuencia independiente del modelo, como una red neuronal recurrente. Los modelos construidos de acuerdo con el marco de EULER pueden distribuir fácilmente sus capas convolucionales de gráficos en varias máquinas para lograr grandes ganancias de rendimiento. El modelo EULER puede identificar eficientemente conexiones anómalas entre entidades con alta precisión y supera a otras técnicas no supervisadas.

1. Introducción y motivación

  La forma más confiable de detectar la propagación de malware no es hacer una lista exhaustiva de todas las firmas maliciosas conocidas asociadas con él; en cambio, es entrenar un modelo para aprender cómo se ve la actividad normal y emitir una alerta cuando detecta un comportamiento que se desvía. de la actividad normal. Desafíos existentes:El modelo de detección debe ser escalable para acomodar terabytes de archivos de registro y debe tener una tasa de falsos positivos extremadamente baja.

  En este trabajo, formulamos la detección de movimiento lateral anormal como un problema de predicción de enlace gráfico temporal. Las interacciones que ocurren en unidades de tiempo discretas en la red se pueden abstraer como una serie de gráficos llamados instantáneas G t = { V , E t } G_t = \{V, E_t\}GRAMOt={ V ,mit} , dondeVVV es el período de tiempo establecido tten la redConjunto de entidadesE t = { ( u , v ) ∈ V } E_t = \{(u, v) ∈ V\ }mit={( tu ,v )V }El modelo de predicción de enlaces temporales aprenderá patrones de comportamiento normales de instantáneas anteriores y asignará puntajes de probabilidad a los bordes que ocurran en el futuro.Los bordes con puntajes de baja probabilidad están asociados con conexiones anormales en la red.

  Los métodos recientes de predicción de enlaces temporales combinan redes neuronales gráficas (GNN) con codificadores de secuencia como redes neuronales recurrentes (RNN) para capturar características topológicas y temporales de redes en evolución. Sin embargo, estos enfoques se basan en la salida RNN de la etapa GNN integrada o simplemente incorporan GNN en la arquitectura RNN. Como se muestra en la Figura 1a, estos modelos deben ser continuos, por lo que no se pueden extender para manejar grandes conjuntos de datos.

  observado:1) La parte más intensiva en memoria de las arquitecturas existentes ocurre en la etapa de paso de mensajes de GNN; 2) Existe un desequilibrio entre el enorme tamaño de las características de entrada del nodo y las incrustaciones de nodos topológicos relativamente pequeños.; lo que significa que la mayor parte del trabajo y el mayor uso de memoria ocurren en GNN. Si varios GNN replicados operan de forma independiente en instantáneas, se pueden ejecutar simultáneamente y el rendimiento mejora en consecuencia, como se muestra en la Figura 1b.
inserte la descripción de la imagen aquí

(a) Los enfoques anteriores se basan en la salida de RNN en la etapa de GNN integrada, o simplemente incorporan GNN en la arquitectura de RNN, lo que obliga al modelo a funcionar en serie, una instantánea a la vez. Por el contrario, (b) el marco EULER puede aprovechar varias máquinas de trabajo para mantener instantáneas continuas del gráfico de tiempo discreto. Estos trabajadores procesan instantáneas en paralelo a través de GNN replicados compartidos por cada máquina. Los resultados de estos GNN se devuelven a la máquina líder, que los ejecuta a través de una red neuronal recurrente para crear incrustaciones de nodos temporales que se pueden usar para la predicción de enlaces.

El resumen de las contribuciones es el siguiente:

  • Por primera vez, la predicción de enlaces de gráficos temporales se utiliza para la detección de intrusiones basada en anomalías. Otros estudios que aplicaron el análisis gráfico para la detección de anomalías no consideraron la naturaleza temporal de los datos o no utilizaron modelos GNN potentes
  • Para la predicción y detección de enlaces temporales, nuestro marco simple propuesto es tan preciso o más preciso que los modelos de codificador automático de gráficos temporales de última generación.
  • Se propone un marco escalable para la predicción distribuida ligada al tiempo para big data

2. Fondo

  Gráfico temporal discreto : G = { G 1 , G 2 , . . . GT } G = \{G_1, G_2, ...G_T \}GRAMO={ G1,GRAMO2,... GT} se define como una serie de gráficosG t = { V , E t , X t } G_t = \{V, E_t, X_t\}GRAMOt={ V ,mit,Xt} se llama instantánea. vvV representa el conjunto de todos los nodos que aparecen en la red,E t E_tmitIndica el tiempo ttLa relación entre t nodos, es decir, el conjunto de aristas, X t X_tXtsignifica con ttCaracterísticas relacionadas con el nodo en el tiempo t . Todos los gráficos están dirigidos, algunos gráficos tienen bordes ponderados,W : E → RW : E → RW:miR representa la frecuencia de borde en el período de tiempo cubierto por cada instantánea. Un gráfico es la ventana de tiempoδ δTodos los triples de sujeto, objeto y tiempo< src , dst , ts > <src,dst,ts> dentro de δ<origen ,dst , _ _t s> .
  Predicción de enlace temporal: se define como encontrar una función que describa la probabilidad de que exista un borde en un punto en el tiempo en un gráfico temporal, dada una instantánea observada previamente de la red. Las interacciones observadas entre entidades con una puntuación de probabilidad por debajo de cierto umbral se denominan anomalías. En el contexto del monitoreo de redes, estos bordes anómalos a menudo indican un movimiento lateral.

3. Motivación

  Considere el ejemplo que se muestra en la Figura 2. Los primeros dos intervalos de tiempo muestran actividad normal en la red: primero en t0, Alice y Bob se autentican en sus computadoras A y B, luego en t1 las computadoras A y B realizan una solicitud a la unidad compartida. En los tiempos t2 y t3, si no vemos que Bob se autentique primero en la computadora B, no se comunica con la unidad compartida. Una distribución de probabilidad simple es obvia: P ( ( C 1 , SD ) ∈ E t + 1 ∣ ( B , C 1 ) ∈ E t ) = 1 P ( ( C 1 , SD ) ∈ E t + 1 ∣ ( B , C 1 ) ∉ mi t ) = 0 \begin{reunidos} \mathsf{P}((\mathsf{C1},\mathsf{SD})\in{\mathcal{E}}_{\mathsf{ t}+ 1}\mid(\mathsf{B},\mathsf{C1})\in{\mathcal{E}}_{\mathrm{t}})=1 \\ \mathsf{P}((\ mathsf{C1 },\mathsf{SD})\en\mathcal{E}_{\mathsf{t}+1}\mid(\mathsf{B},\mathsf{C1})\no\en\mathcal{ E}_ {\mathsf{t}})= 0 \end{reunidos}PAG (( C1 ,DE )mit + 1( segundo ,C1 )mit)=1PAG (( C1 ,DE )mit + 1( segundo ,C1 )mit)=0Sin embargo, en t4 y t5, sucede algo inusual: la computadora B solicita datos de la unidad compartida sin que Bob se autentique primero, lo que podría ser un ataque.

inserte la descripción de la imagen aquí
  Los métodos basados ​​en gráficos existentes no consideran el tiempo, mientras que muchos métodos basados ​​en eventos ven cada evento de forma aislada, carecen de la capacidad de captar la importancia de las interacciones que ocurren entre otras entidades en la red y cómo se relacionan con eventos individuales. se puede ver la diferencia entre (C1,SD) en el tiempo t1 y el tiempo t5. Para detectar el ataque en el ejemplo, el modelo debe considerar el evento con referencia a eventos anteriores, así como otras interacciones en la red.Un evento entre dos entidades que ocurren en un punto en el tiempo no puede considerarse idéntico al mismo evento que ocurre en el futuro en un contexto global diferente

Los ejemplos dados en el texto original aquí son t1 y t4, pero lo que entiendo es: el método tradicional pensará que t5 es normal porque t0 ha sucedido, pero no lo es, por lo que se debe considerar la información del tiempo y el impacto del tiempo de no se puede ignorar la misma información, como Verificación caducada y se requiere una nueva verificación. Entonces cambió a t1 y t5.


4. EULER

  El marco tiene como objetivo aprender una función de probabilidad condicionada a estados previos de un gráfico temporal para determinar la probabilidad de que aparezca un borde en un estado posterior.

A. Codificadores y decodificadores

  Consiste en una red neuronal de gráficos (GNN) independiente del modelo apilada en una red neuronal recurrente (RNN) independiente del modelo. Estos modelos tienen como objetivo colectivo encontrar la función de codificación f ( ⋅ ) f( )f ( ) y la función de decodificacióng ( ⋅ ) g(·)gramo ( ) . La función de codificación tendráTTLos nodos en el gráfico de tiempo de las instantáneas T se asignan aTTT vectores de incrustación de baja dimensión. La función de decodificación asegura que se pierda información mínima durante el proceso de codificación y está diseñada para eliminar posiblesZZZ = f ( { GRAMO 0 , ... , GT } ) = RNN ⁡ ( [ GNN ⁡ ( X 0 , A 0 ) , ... , GNN ⁡ ( XT , AT ) ] ) \begin{alineado }Z=f ({ G0,,GRAMOT})=RNN ( [ GNN ( X0,A0) ,,GNN ( XT,AT) ] )Entre ellos A t A_tAtes el momentot instantánea de∣ V ∣ × ∣ V ∣ |V|×|V|V ×V representación de matriz de adyacencia. EstaT × ∣ V ∣ × d T × |V|× dT×V ×d- tensor dimensionalZZZ está optimizado para contener información sobre la estructura del gráfico y la dinámica de cómo cambia con el tiempo.

  La función g ( Z t ) = PAGS r ( UN t + n = 1 ∣ Z t ) = σ ( Z t Z t T ) = UN ~ t + n \mathbf{g}(\mathbf{Z}_\mathbf {t})=\mathbf{Pr}(\mathbf{A}_{\mathbf{t}+\mathbf{n}}=\mathbf{1}\mid\mathbf{Z}_\mathbf{t}) \\=σ(\mathbf{Z}_{\mathrm{t}}\mathbf{Z}_{\mathrm{t}}^{\mathsf{T}})={\mathbf{\tilde{A} }}_{\mathrm{t+n}}gramo ( Zt)=PR ( A)t + n=1Zt)=s ( ZtZtT)=A~t + nσ ( ⋅ ) σ(·)σ ( ) representa la función logística sigmoidea, yA ~ t + n {\mathbf{\tilde{A}}}_{\mathrm{t+n}}A~t + nsignifica en el tiempo t + nt + nt+Matriz de adyacencia reconstruida en n .

B. Flujo de trabajo

  del marco EULEREl núcleo es apilar una copia de un GNN independiente del modelo (que llamamos codificador topológico) encima de una capa recurrente independiente del modelo con algunas restricciones simples. Tiene el potencial para un paralelismo masivo cuando se adapta a un paradigma líder/trabajador con una capa recurrente como líder y múltiples codificadores topológicos como trabajadores. El flujo de trabajo general se muestra en la Figura 3, que se divide en cinco etapas:

  • El líder genera trabajadores y les indica qué instantáneas cargar
  • El líder inicia el ciclo de entrenamiento y los trabajadores generan incrustaciones topológicas
  • Después de recibir las incrustaciones topológicas, el líder las procesa a través de la RNN
  • Envíe la salida del RNN al trabajador para calcular la pérdida o la puntuación
  • En el modo de entrenamiento, la pérdida se devuelve al líder para la retropropagación.

C. entrenamiento

  Dos modos de entrenamiento: detector de enlaces y predictor de enlaces. La diferencia es que en el paso 4, Z t Z_tZtSe envían insertos al personal para calcular los daños. Los detectores de enlace son inductivos; utilizan instantáneas parcialmente observadas para generar Z t Z_tZty prueba con g ( Z t ) g(Z_t)gramo ( Zt) para reconstruir la matriz de adyacencia completaA t A_tAt. Luego, las auditorías se realizan manualmente para identificar las conexiones anómalas que se han producido. Los predictores de enlace son transductivos; utilizan instantáneas para generar Z t Z_tZt, para predecir el estado futuro A t + n A_{t+n}At + ny luego marque los bordes observados.

D clasificación

  Aunque para la mayor parte de nuestra evaluación nos basamos en métricas de regresión relacionadas con la aptitud de las puntuaciones asignadas a los bordes, es útil automatizar el proceso de determinación de umbrales de valores atípicos para obtener puntuaciones de clasificación. Con este fin, tomamos una o más instantáneas completas como un conjunto de validación adicional al entrenar el modelo. Usando el estado oculto final h del RNN de la instantánea de entrenamiento como entrada a la instantánea de validación, encuentre el umbral de corte óptimo para la puntuación de probabilidad marginal. Dado el conjunto de puntajes de borde presentes en la instantánea de validación, el umbral de corte óptimo τ satisface argmin ∥ ( 1 − λ ) TPR ( τ ) − λ FPR ( τ ) ∥ \text{argmin}\quad\|(1-\lambda )\text{TPR}(\tau)-\lambda\text{FPR}(\tau)\|argmín( 1l ) TPR ( t )λ FPR ( τ ) TPR ( τ ) TPR(τ)TPR ( τ )FPR ( τ ) FPR(τ)FPR ( τ ) se refiere al umbral de corte dadoτ τLa tasa de verdaderos positivos y la tasa de falsos positivos para la clasificación de τ , λ = 0,6.

5. Evaluación comparativa

  El GNN más general disponible, superpuesto al GRU. Muy simple, conocido como el "método ingenuo", pero también es el modelo de tiempo más rápido probado.

  Se incluye una capa de omisión de borde antes del paso hacia adelante inicial, y una capa de omisión de características se incluye entre todas las capas para evitar el ajuste excesivo y el suavizado excesivo en conjuntos de datos pequeños.

  Tanto la capa oculta como la salida son de 32 dimensiones. La secuencia de salida de GCN luego pasa a través de una función de activación tanh, luego es procesada por una única GRU de 32 dimensiones y, finalmente, la salida se proyecta en una incrustación de 16 dimensiones mediante un MLP.

Otros modelos de evaluación: DynGraph2Vec, Evolving GCN, VGRNN, VGAE

Tres conjuntos de datos: Facebook, Enron10 y COLAB
inserte la descripción de la imagen aquíinserte la descripción de la imagen aquí

6. Detección de movimiento lateral

Conjunto de datos LANL, 57 días de archivos de registro de 5 fuentes diferentes, actividad normal + actividad del equipo rojo, etiquetado.
inserte la descripción de la imagen aquí
Probamos los tres codificadores con dos redes neuronales recurrentes y modelos sin capas recurrentes para medir el valor de los datos temporales para la incorporación general. Los modelos de codificador incluyen GCN, GAT y GraphSAGE. Los modelos recurrentes son GRU y LSTM.
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/qq_44623371/article/details/130863632
Recomendado
Clasificación