Hablando sobre la aplicación del algoritmo gráfico en la escena de actividad en anti-trampas

Autor | ANTI

guía

A medida que la confrontación entre los productos negros contra las trampas y las trampas se vuelve cada vez más feroz, y los métodos de trampas cambian cada día que pasa, también estamos constantemente probando nuevos métodos para resolver nuevos problemas de trampas. Este documento presenta principalmente la aplicación del algoritmo gráfico para resolver el problema de las trampas de tipo comunitario en el escenario del evento. El modelo gráfico no solo puede integrar la estructura topológica del gráfico y las características de los nodos para el aprendizaje al mismo tiempo, sino que también, como modelo semisupervisado, puede hacer un mejor uso de los datos no etiquetados y mejorar el efecto de recuperación. Tanto el modelo de gráfico GCN como el SCGCN (modelo de concatenación de gráficos múltiples) mencionados en el artículo han logrado buenos resultados en la recuperación de trampas.

El texto completo tiene 4102 palabras y el tiempo de lectura previsto es de 11 minutos.

01 Introducción

Las actividades operativas son un medio importante para que las empresas aseguren el crecimiento y la retención de usuarios, y también son una de las principales competitividad de las empresas. Sus formas principales incluyen atraer nuevos usuarios y promover la activación. Adquirir nuevos usuarios es adquirir nuevos usuarios invitando a nuevos usuarios de usuarios antiguos para aumentar el grupo de recursos del usuario; promover la activación es aumentar la DAU y aumentar la permanencia del usuario al realizar tareas. Por ejemplo, solemos participar en la actividad de hacer tareas y recibir sobres rojos en una APP, que es una de las formas específicas de actividades de operación. Al combinar las características de sus propios productos para llevar a cabo actividades operativas, las empresas pueden lograr el propósito de mejorar la retención de usuarios y las tasas de conversión, aumentando así los ingresos y la influencia corporativa. También hay varias actividades en la aplicación Baidu, como "invitar a amigos a recibir sobres rojos", "hacer tareas para recibir sobres rojos", etc. Sin embargo, habrá una gran cantidad de tramposos (como piratas informáticos de Internet) en el evento para obtener beneficios ilegítimos mediante trampas, lo que afectará el efecto de marketing del evento. En este momento, el sistema antitrampas necesita identificar productos negros a través de información multidimensional, como retratos de usuarios, comportamientos de usuarios e información de dispositivos, para acompañar las actividades operativas de la empresa. En los últimos años, con la continua confrontación ofensiva y defensiva entre la lucha contra las trampas y la industria negra, los métodos de trampa de la industria negra también se han actualizado iterativamente, desde trampas informáticas a gran escala hasta trampas de colaboración abierta, e incluso trampas reales a pequeña escala. persona que hace trampa, lo que hace anti-trampa La dificultad de hacer trampa y la identificación de trampas también está aumentando, por lo tanto, necesitamos iterar constantemente nuevos métodos para identificar y bloquear productos negros.

02 Dificultad

En las actividades operativas, tome como ejemplo la actividad de atraer a los recién llegados. En las actividades de extracción de nuevos tipos, una vez que se produce la invitación, se establecerá automáticamente una relación entre los usuarios, aquí lo llamamos "relación maestro-alumno" (el que invita se considera "maestro" y el invitado se considera "aprendiz"). "). Por ejemplo, Pic.3 es un diagrama de relación de usuario generado a través de la operación "invitar a nuevo". Llamamos a los personajes de nivel superior el "maestro" de los personajes de nivel inferior, y a los personajes de nivel inferior como los "aprendices" de los personajes de nivel superior. En la imagen, el maestro puede reclutar a varios aprendices y, al mismo tiempo, recibirá las recompensas correspondientes. Por lo general, cuantos más aprendices, más recompensas. 

△Pic.1 Actividad de invitación de amigos, Pic.2 Actividad del Día Nacional

 △Pic.3 Descripción de la relación entre los personajes invitados al evento

En la actualidad, el modelado anti-trampas al extraer nuevos escenarios se enfrenta a los siguientes dos problemas:

1. Falta de capacidad para describir la información de contacto entre los usuarios : el modelo de aplicación actual de la actividad empresarial contra las trampas incluye un modelo de árbol, DNN y un modelo de aprendizaje automático. Si consideramos a los usuarios como nodos, encontraremos que el aprendizaje y entrenamiento de estos modelos prestan más atención a las características de los propios nodos, pero carecen de la capacidad de aprender las características de la relación entre nodos. En varios ataques de trampas recientes, se descubrió que la "comunidad" es una forma de hacer trampas con un ataque a gran escala como unidad básica. Comparten de manera obvia la información sobre el comportamiento y el equipo, y existe una fuerte correlación entre la información entre los tramposos Existe la necesidad de mejores modelos para aprender esta capacidad de "asociación".

2. La baja pureza de la muestra conduce a una recuperación limitada : generalmente, las muestras negras se obtienen a través de una evaluación de muestreo manual y el enriquecimiento de la retroalimentación de las quejas de los clientes, mientras que las muestras blancas se obtienen mediante un muestreo aleatorio en una cierta proporción. Sin embargo, existe un problema que no es fácil de resolver de esta manera, y es que estas muestras blancas pueden estar mezcladas con datos de trampa desconocidos, lo que reducirá la pureza de las muestras blancas y afectará el efecto de entrenamiento del modelo supervisado.

A continuación, presentamos el algoritmo del modelo gráfico que puede resolver de manera efectiva los dos problemas anteriores.

03 Aplicación de algoritmo gráfico

Para resolver los dos problemas comerciales planteados anteriormente, se selecciona el modelo de red neuronal gráfica para el modelado comercial. La ventaja del modelo gráfico es que puede integrar la estructura topológica del gráfico y las características de los nodos para aprender al mismo tiempo. No solo puede conectar información a través de la relación de borde establecida entre los nodos, sino que complementa la capacidad de aprendizaje del modelo. relaciones de borde, ampliando así la recuperación, pero también como modelo semisupervisado, el modelo gráfico puede hacer un mejor uso de los datos no etiquetados y mejorar el efecto de recuperación.

3.1 Introducción a los modelos gráficos

Los modelos de redes neuronales gráficas comúnmente utilizados actualmente se pueden dividir en dos categorías: una se basa en métodos de recorrido gráfico, como los modelos de recorrido aleatorio; la otra se basa en métodos de convolución gráfica, como GCN, GAT y GraphSAGE Isograph Convolutional Neural. Modelo de red. Desde la perspectiva del gráfico completo, GCN rompe las barreras entre la estructura del gráfico original y la red neuronal, pero la gran cantidad de cálculos basados ​​en el gráfico completo hace que encuentre cuellos de botella en aplicaciones de escena a gran escala, mientras que GraphSAGE desde la perspectiva de grafos locales puede resolver este problema hasta cierto punto. Otro modelo gráfico de uso común, GAT, ha agregado un mecanismo de atención. Más parámetros del modelo no solo mejoran la capacidad de aprendizaje, sino que también aumentan la complejidad del tiempo y el espacio, lo que hace que el entrenamiento del modelo requiera más información de muestra y recursos informáticos. En escenarios comerciales reales, dado que el tamaño de la muestra es controlable, el algoritmo gráfico GCN se selecciona directamente para el entrenamiento. A continuación, se presenta brevemente el principio de GCN.

GCN es una red neuronal convolucional de gráficos multicapa. Cada capa convolucional solo procesa información de vecindad de primer orden. Al apilar varias capas convolucionales, se puede lograr la transmisión de información en vecindades de orden múltiple.

Las reglas de propagación de cada capa convolucional son las siguientes [1]:

\(H^{(l+1)}=σ(\tilde{D}^{-{\frac 1 2}}\tilde{A}\tilde{D}^{-{\frac 1 2}}H ^{(l)}W^{(l)})\)

en

  • \(\tilde{A}=A+I_{N} \) es la matriz de adyacencia del grafo no dirigido \(G\) más la autoconexión (es decir, cada vértice y él mismo más una arista), \(I_{ N} \) es la matriz identidad.
  • \(\tilde{D}\) es la matriz de grados de \(\tilde{A} \) , es decir, \(\tilde{D}{ii}=\sum_j\tilde{A}{ij}\)
  • \(H^{(l)}\) es la matriz de unidades de activación de la capa \(I\) , \( H^0=X\)
  • \(W^{(l)}\) es la matriz de parámetros de cada capa

La matriz de adyacencia \(A\) transmite la información de los vecinos del nodo, y la matriz identidad \(I_{N}\) representa la transmisión de la información propia del nodo, por lo que el modelo GCN puede aprender tanto la las características del propio nodo y su información asociada con otros nodos, y la información de sí mismo y de los nodos vecinos se agregan para el entrenamiento y el aprendizaje.

△Pic.4 Diagrama esquemático de GCN

△Imagen 5 Ejemplo

Como uno de los puntos críticos de investigación, el campo de redes neuronales gráficas se ha utilizado ampliamente en varios escenarios industriales en los últimos años y ha logrado buenos resultados.

3.2 Aplicación del algoritmo gráfico

3.2.1 Modelo de recuperación de GCN basado en el escenario de trampa de nuevas actividades de extracción

Extraiga el nuevo modelado de escena de eventos

La nueva escena del evento es una de las principales escenas de trampas del evento. Tomando como ejemplo el "Escenario de invitación de maestro y aprendiz", si el usuario maestro invita con éxito al usuario aprendiz a convertirse en un nuevo usuario, tanto el usuario maestro como el usuario aprendiz recibirán las recompensas correspondientes. La industria negra utilizará lotes de cuentas de aprendices falsas para ayudar al maestro a completar el comportamiento de invitar a nuevos estudiantes a obtener beneficios. A través del análisis estadístico de los datos, se descubrió que estos falsos usuarios aprendices compartían IP y modelos superpuestos. En base a esto, intente usar "Usuario maestro" como el nodo básico en el gráfico y, respectivamente, use "ciudad + modelo" y "IP + modelo" como relaciones de borde para construir un modelo de gráfico.

Recorte de figuras

Dado que no todos los maestros que comparten modelos IP tienen señales engañosas, solo se conservan los bordes cuyo peso es mayor que el umbral T para lograr el efecto de mejora de características.

efecto modelo

△tabla 1 Comparación de los efectos del modelo

Los resultados experimentales muestran que el algoritmo GCN tiene un efecto significativo, aumentando la tasa de recuperación de muestras trampa en un 42,97 %.

3.2.2 Exploración de aplicaciones del método de fusión de múltiples imágenes

De los experimentos anteriores, se puede ver que diferentes métodos de composición recordarán diferentes grupos de trampa. Si la información sobre las diferencias entre estos grupos se fusionara, ¿se obtendría más recuerdo? Por lo tanto, trate de encontrar una forma efectiva de integrar información de diferentes gráficos en el mismo modelo para mejorar la tasa de recuperación de muestras engañosas. Siguiendo la idea de la fusión de múltiples imágenes, se proponen los siguientes tres métodos para realizar experimentos respectivamente.

método de fusión

Edge_union fusiona las dos imágenes con la idea de "mezclar la imagen A y la imagen B en la misma imagen para capacitación y aprendizaje", y de esta manera, la información contenida en la imagen A y la imagen B se fusiona.

△Imagen 6 edge_union modelo

△Pic.7 método de composición edge_union

Herencia de características de incrustación scgcn-split

La idea de fusionar las dos imágenes es "tomar la representación incrustada de la imagen A entrenada como la característica de entrada de la imagen B para el entrenamiento y el aprendizaje", y de esta manera, la información contenida en la imagen A y la imagen B será fusionados.

△Pic.8 scgcn-modelo dividido

entrenamiento de combinación de gráficos en serie scgcn

Basado en el esquema scgcn-split , el gráfico A y el gráfico B están conectados en serie para entrenar y aprender al mismo tiempo.

△Pic.9 modelo scgcn

efecto modelo

Los siguientes son los resultados de la comparación de rendimiento de diferentes métodos en el mismo conjunto de datos:

△tabla 2 Comparación de los efectos del modelo

Desde el punto de vista de la magnitud de la nueva recuperación, el método scgn es el mejor, ya que recupera las muestras más engañosas; el método edge_union funciona mal y su magnitud de recuperación ni siquiera es tan buena como la imagen única de GCN. Basta con analizar el motivo, el método edge_union fusiona diferentes tipos de aristas en una misma estructura de gráfico, en este proceso no se distinguen el tipo y la importancia de las aristas, lo que equivale a homogeneizar las aristas del gráfico, perdiendo así algo de información de las aristas. Del experimento Como resultado, se perdió parte del recuerdo. Al mismo tiempo, el modelo edge_union está limitado por escenarios de aprendizaje semisupervisados ​​y una pureza de muestra insuficiente. Al agregar conexiones de borde entre nodos, también existe el riesgo de transmitir información incorrecta. Además de los experimentos anteriores, también se probaron métodos de fusión de imágenes como concat/max-pool/avg-pool en la capa de incrustación. Todos estos métodos tienen pérdidas de recuperación, lo que indica que el método de fusión de imágenes "en paralelo" no puede permitir la modelo para obtener más información, por el contrario, será recordado debido a la pérdida de información efecto de exclusión mutua. Por el contrario, el método de fusión de gráficos "en serie" parece ser más efectivo. Tanto scgcn-split como scgcn tienen más memoria que el modelo de una sola imagen, especialmente el modelo scgcn, que entrena los parámetros de múltiples imágenes al mismo tiempo, puede integrar verdaderamente la información de múltiples imágenes y recuerda más que el modelo de una sola imagen. Unión de recuperación de modelos Muchas muestras.

04 Resumen y perspectiva

En comparación con el modelo tradicional, el modelo gráfico no solo puede obtener información de los nodos, sino también capturar la información de la relación entre los nodos. A través de la relación de borde establecida entre los nodos, la información se interconecta y se aprende más información, expandiendo así la memoria. En la escena de actividad maestro-aprendiz anti-trampas de la nueva actividad de promoción, a través de la aplicación del algoritmo gráfico, las muestras de trampas recién recuperadas aumentan en un 50% sobre la base de las muestras de trampas originales, y la tasa de recuperación mejora considerablemente. .

En el futuro, se llevará a cabo una mayor exploración en las siguientes direcciones:

1. Del trabajo anterior, se puede ver que la relación de borde juega un papel importante en el aprendizaje del modelo gráfico. El peso del borde se procesará y aprenderá más adelante, y la información del nodo también se complementará. Al agregar información de datos y características efectivas, el modelo se mejora.

2. Con la mejora continua de los métodos de trampa, la forma de hacer trampa está pasando gradualmente de la operación de la máquina a la operación humana, y la escala de la trampa se reduce, lo que resulta en características de trampa escasas y aumenta la dificultad de identificación. En el futuro, se probarán más algoritmos gráficos, como el modelo GAT[2] que introduce el mecanismo de atención, el modelo Deepgcn[3] que puede apilar redes multicapa, etc., para mejorar la sensibilidad de la detección de trampas.

--FIN--

Referencias :

[1]Kipf, Thomas N. y Max Welling. "Clasificación semisupervisada con redes convolucionales de gráficos". preimpresión de arXiv arXiv:1609.02907 (2016).

[2] Veličković, Petar, et al. "Graficar redes de atención". preimpresión de arXiv arXiv:1710.10903 (2017).

[3]Li, Guohao, et al. "Deepgcns: ¿Puede gcns ir tan profundo como cnns?". Actas de la conferencia internacional IEEE/CVF sobre visión artificial. 2019.

Lectura recomendada :

Serverless: práctica de escalado flexible basada en retratos de servicio personalizados

Método de descomposición de acciones en la aplicación de animación de imágenes.

Carretera de aceleración de datos de la plataforma de rendimiento

Edición AIGC Proceso de producción de video Práctica de arreglos

Los ingenieros de Baidu hablan sobre la comprensión del video

Los ingenieros de Baidu lo llevan a comprender Module Federation

{{o.nombre}}
{{m.nombre}}

Supongo que te gusta

Origin my.oschina.net/u/4939618/blog/8586998
Recomendado
Clasificación