Exploración y práctica de la lucha contra las trampas en la comunidad Xiaohongshu

El tema de este intercambio es la exploración y práctica de la lucha contra las trampas en la comunidad Xiaohongshu , principalmente discutiendo ideas de resolución de problemas para la implementación del trabajo de control de riesgos comerciales . El contenido se centra en los siguientes cuatro puntos: la importancia de la lucha contra las trampas en la comunidad, la ecología de la producción comunitaria negra y gris, las estrategias de prevención y control de las trampas y las prácticas comunitarias contra las trampas. El siguiente texto completo está compilado en base a lo compartido por Fei Dong en el Foro de Control de Riesgos Inteligente de DataFun.

Fei Dong: Jefe del algoritmo de estrategia de control de riesgos comunitarios de Xiaohongshu. Se graduó de la Universidad de Nanjing con una licenciatura y estudió una maestría en ParisTech. Ahora trabajo en Xiaohongshu, construyendo un marco comunitario de identificación anti-trampas desde cero y responsable de la construcción del sistema de algoritmo de estrategia de seguridad de control de riesgos comunitario.

Antes de hablar sobre la lucha contra las trampas en la comunidad, primero aclaremos qué son las trampas y los riesgos que conlleva para la industria.

1. Definición de trampas y riesgos de la industria

Descubrir riesgos y definir problemas es una parte muy crítica del trabajo de control de riesgos, pero también es una parte que a menudo todos ignoran. Este artículo ofrece una definición personal, que es "todos los comportamientos que abusan de las funciones del producto por medios anormales para buscar beneficios". La palabra clave es "obtención de beneficios": independientemente de la industria, las trampas deben ser rentables.

Las formas de riesgo de fraude en diferentes industrias no son fijas y deben definirse en función de la forma del producto y el modelo de negocio. Por ejemplo, los posibles riesgos causados ​​por las trampas en escenarios de comercio electrónico incluyen el cepillado de pedidos, la especulación y la especulación. Los principales riesgos en el escenario de pagos incluyen el fraude en transacciones, el lavado de dinero y el retiro de efectivo con tarjetas de crédito.

Entonces, ¿qué riesgos se enfrentan en los escenarios comunitarios?

En el entorno de la comunidad Xiaohongshu UGC, los principales riesgos que enfrenta son los siguientes: manipulación de datos (fraude de datos), desvío de contenido, fraude y plantación falsa.

2. La importancia de la lucha comunitaria contra las trampas

En la mayoría de los escenarios, el valor de la lucha contra las trampas se mide recuperando XX pérdidas de capital. Por ejemplo, la especulación del comercio electrónico, el retiro de efectivo de las tarjetas de crédito en los pagos, los subsidios fraudulentos de las actividades, etc. El estándar de medición puede ser cuánta pérdida de capital se ahorra para la plataforma. Entonces, ¿cómo medir el valor en la comunidad? ¿O cuál es el significado de antitrampas comunitarias?

•  Supervivencia del producto

Para la supervisión: si no se hace bien la lucha contra las trampas, la concentración de los problemas de riesgo correspondientes puede aumentar, como el fraude y la manipulación de órdenes. Recientemente, los departamentos pertinentes han puesto en marcha operaciones contra el fraude en Internet, como operaciones de desconexión de tarjetas, operaciones de limpieza de redes, etc. Si estos problemas no se resuelven de manera efectiva, traerá riesgos regulatorios a la plataforma.

Recursos de la máquina: una gran cantidad de comportamientos de trampa pueden ocupar recursos de la red, provocar congestión del servicio y afectar las funciones del usuario.

Teniendo en cuenta las dos perspectivas anteriores, las trampas pueden afectar la supervivencia de productos y plataformas en el corto plazo.

• Precisión de los datos

Hacer trampa generará una gran cantidad de datos basura, y los datos son un apoyo importante para las decisiones de producto e incluso estratégicas. Si no se pueden distinguir los datos falsos, cuando su magnitud y proporción alcanzan un cierto nivel, pueden provocar desviaciones y errores en el análisis y la toma de decisiones, afectando el juicio empresarial.

• Ecología de plataforma

Un ecosistema de contenidos sano y sincero y datos reales son la garantía de la experiencia del usuario.

Dividimos a los usuarios del lado C en dos categorías. Un tipo de usuarios no puede distinguir datos y contenidos falsos. Para ellos, el contenido o los datos falsos conducirán a decisiones engañosas; el otro tipo de usuarios puede distinguir datos y contenidos falsos y no engañarán. pero el proceso de discernimiento y selección aumenta enormemente el costo de obtener información eficaz. A largo plazo, las trampas pueden generar desconfianza en la plataforma y pérdida de usuarios.

Para los autores, los autores son la fuerza impulsora principal detrás de la producción de contenido comunitario. Si los datos del tramposo son falsos o inflados, será injusto para los demás autores. A largo plazo, hacer trampa hará que el "dinero malo" expulse al "dinero bueno".

• Valor del tráfico

En el último nivel, las trampas afectarán el valor del tráfico, y la falsedad del contenido y los datos reducirá el reconocimiento público de la plataforma, lo que afectará el interés de los usuarios en usar la plataforma a largo plazo. Desde una perspectiva de comercialización, quienes están más preocupados por el valor del tráfico son los editores. Para los editores, los datos inexactos afectarán las conclusiones del análisis empresarial, lo que dará lugar a efectos de entrega inferiores a los esperados y a una subestimación del valor del tráfico de la marca.

Por ejemplo, un determinado editor utiliza el análisis de datos para seleccionar blogueros que coincidan con su contenido y tengan tráfico, y reconozcan su capacidad para generar productos. Suponiendo que los datos del blogger se generaron mediante trampas, se descubrirá que el efecto no es bueno después del lanzamiento y el retorno de la inversión no es tan bueno como se esperaba. A la larga, se concluirá que el retorno de la inversión de la plataforma la interacción es baja, lo que lleva a una subestimación del valor del tráfico de la plataforma.

En resumen, ya sea desde la perspectiva de la ecología de la plataforma o del valor del tráfico, los datos y contenidos falsos afectarán el potencial de desarrollo de la plataforma. Hacer un buen trabajo en la comunidad anti-trampas puede aumentar el límite superior del desarrollo a largo plazo del producto.

1. La cadena industrial detrás de las trampas: clara división del trabajo

¿Cuál es la cadena industrial de especuladores detrás de las trampas? La división de la cadena industrial de producción negra y gris es muy clara y se puede dividir aproximadamente en tres partes: upstream, middle y downstream.

Upstream es el principal responsable de proporcionar materiales básicos, como solicitar una cuenta, como número de teléfono móvil (Mao Pool, plataforma de recepción de código), recursos de IP (IP de agente, IP de miaobao), equipo (modificación de simulador, móvil controlado en la nube). teléfono).

El midstream es responsable de la implementación de tecnología, como la creación de cuentas: registrar una cuenta --> mantener una cuenta --> vender la cuenta al downstream, empaquetar scripts automáticos para el cepillado, herramientas de marketing, etc.

La realización posterior de la monetización suele ser el personal operativo, que es una parte no técnica. Generalmente, en la cadena de la industria negra y gris, el personal técnico no participará directamente en la realización de los servicios. Por ejemplo, en los servicios de volumen de pincel, es común desarrollar agentes y desconectarse a través de la fisión del sitio web para realizar operaciones de servicio de volumen de pincel. En la industria del fraude, cada grupo de fraude desempeña sus propias funciones: algunos operadores son responsables de desviar el tráfico y otros son responsables de cultivar la confianza de los usuarios después de desviar el tráfico y, finalmente, guiar la finalización del fraude.

2. Iteración de los métodos de trampa: al evolucionar gradualmente de herramientas automatizadas a crowdsourcing de personas reales, el costo de las trampas aumenta y la identificación se vuelve más difícil.

La mayoría de los primeros ataques fueron trampas en la interfaz fuera de línea y, a través de la confrontación, se derivaron gradualmente máquinas virtuales y control de grupos. En los últimos años, las trampas mediante crowdsourcing se han ido generalizando gradualmente. En cuanto a la iteración de las técnicas de trampa de la industria negra, se puede ver que el costo de las trampas es cada vez mayor. Sin conexión solo se requiere una cuenta y una IP, y se pueden lograr una gran cantidad de conductas de trampa una vez que se rompe la protección; el control de grupo requiere la compra de equipos reales; el crowdsourcing depende de personas reales para lograr el objetivo en forma de subcontratación de tareas. Aunque el contenido técnico del crowdsourcing no es tan alto, el costo y la dificultad de una identificación completa son mayores.

De la cadena industrial mencionada anteriormente se puede ver que toda la industria de las trampas es muy rentable y, a menudo, detrás de ella hay ideas y métodos claros de monetización. La profesionalidad de las industrias negras también ha mejorado rápidamente impulsada por las ganancias. No importa desde los recursos iniciales hasta las ganancias finales, existe una clara división del trabajo y una colaboración eficiente, lo que lentamente deriva en formas de trampa que son cada vez más difíciles de identificar. Esto también requiere que los estudiantes de control de riesgos sigan la situación y el progreso de la industria, se conozcan a sí mismos y a sus enemigos, se mejoren constantemente en el proceso de identificación de confrontaciones y logren una optimización iterativa.

1. Ideas de control y prevención de trampas

Ante los riesgos conocidos y las cadenas industriales, analicemos toda la estrategia de control y prevención de trampas. La llamada estrategia debe primero aclarar los objetivos de la prevención y el control de las trampas, así como el camino crítico para alcanzar los objetivos.

Empiece por aclarar sus expectativas contra las trampas. La esencia de la lucha contra las trampas es enfrentar el costo de los tramposos: ningún sistema anti-trampas puede lograr el 100% de precisión y recuperación. Como se mencionó anteriormente, no importa qué forma de hacer trampa, es con el propósito de obtener ganancias, y la fuente de las ganancias es la diferencia de valor entre los costos y beneficios de hacer trampa. La tarea de la lucha contra las trampas es aumentar el costo de las trampas, comprimir el espacio de ganancias de las trampas tanto como sea posible y reducir la motivación de los tramposos. Por lo tanto, un objetivo razonable es reducir la proporción de trampas en el comportamiento normal y controlar la concentración de riesgos.

El camino clave es transformar la identificación pasiva en defensa activa. Si permanece pasivo durante mucho tiempo, es posible que no pueda tener un concepto macro integral. Para lograr una defensa activa, el primero es desarrollar capacidades de percepción de riesgos, detectar riesgos lo antes posible y reaccionar e iterar rápidamente; el segundo es controlar los recursos básicos (cuentas, equipos) de productos ilegales, establecer umbrales altos y configurar la entrada. barreras y eliminar cuentas problemáticas. Realizar limpieza de inventario. Al reducir la cantidad de cuentas y dispositivos que los tramposos pueden usar, el costo correspondiente de las nuevas cuentas también aumentará, lo que controla los recursos básicos.

Lo siguiente es un desglose adicional de la idea de prevención y control de trampas, que también es una metodología relativamente general que personalmente creo que se puede aplicar a varios escenarios de control de riesgos. En primer lugar, la mayor dificultad en el control de riesgos empresariales es la confrontación. No importa la forma que adopte el engaño, la única constante es la confrontación, que siempre existe. Se resumen varios módulos en torno a la confrontación: percepción de riesgos, desarrollo de capacidades, identificación de riesgos, tratamiento de riesgos y evaluación de efectos. Al encontrarnos con nuevas confrontaciones, habrá iteraciones continuas entre estos vínculos. A continuación se toma como ejemplo la lucha contra las trampas de la comunidad Xiaohongshu para presentar en detalle la configuración de estos módulos.

La capa de percepción de riesgos es responsable de descubrir los riesgos más rápidamente y convertir la extinción pasiva de incendios en defensa activa. Se divide específicamente en operaciones de inteligencia, encubiertos de producción negra y enfrentamiento entre ejércitos rojo y azul para ayudar a identificar riesgos y encontrar problemas antes.Se puede decir que la inteligencia son los ojos de todo el sistema de prevención y control de riesgos, resolviendo problemas "visibles".

El desarrollo de capacidades es la capacidad de responder rápidamente a la confrontación. Los módulos involucrados en esta parte son: dispositivo + defensa conjunta en la nube, que obtiene información del dispositivo a través del dispositivo bajo la premisa de cumplimiento legal y la procesa en características utilizables para su uso mediante estrategias y algoritmos de defensa en la nube. El segundo es un sistema de control de riesgos al que se puede acceder rápidamente y configurar de manera flexible para lograr una iteración rápida de las reglas de políticas. El tercero es implementar rápidamente escenarios de control de riesgos de cero a uno, crear una plataforma de elaboración de perfiles de riesgos que pueda usarse de manera colaborativa en todos los escenarios y migrar y utilizar rápidamente capacidades de infraestructura de datos en nuevos escenarios de riesgo.

El módulo de identificación de riesgos está diseñado para combatir los riesgos que requieren una mejor identificación. Para ampliar las capacidades desde varios ángulos, primero amplíe los datos, combine las características del dispositivo, las características de la cuenta, las características de comportamiento y los perfiles de riesgo identificados en otros escenarios para realizar un análisis de uso conjunto. En segundo lugar, desde la perspectiva de la minería, utilice la asimetría de información entre la plataforma oficial y los tramposos para encontrar los puntos anormales de los usuarios tramposos en comparación con los usuarios normales: ① Intente ir de un punto a otro, desde analizar un solo comportamiento hasta analizar una serie. Esta es la minería de secuencias de comportamiento; ② Desde un solo punto hasta el conjunto, la minería en grupo a través de relaciones topológicas entre nodos como cuentas, IP o dispositivos puede generar grandes ganancias.

En términos de gestión de riesgos, es necesario elegir formas más efectivas de aumentar el costo de la elusión. Se divide principalmente en dos niveles, uno es el objeto de eliminación y el otro es el medio de eliminación. No existe una respuesta estándar sobre cómo abordar cada escenario. Se recomienda emitir juicios basados ​​en el negocio específico y los riesgos del negocio, comprender las motivaciones detrás de los riesgos y luego considerar qué métodos de eliminación se deben adoptar para aumentar el costo. de eludir. La evaluación del efecto puede evaluar el nivel de riesgo. En términos generales, los indicadores comúnmente utilizados incluyen la cantidad de trampas y fugas, la tasa de fugas, el precio del servicio de trampas, el precio de la cuenta, etc.

2. Plan de implementación - sistema de control de riesgos: admite análisis de acceso rápido, configuración flexible y migración de capacidades

El sistema de control de riesgos de Xiaohongshu se divide en una capa de acceso a datos comerciales, una capa de procesamiento de datos, una capa de análisis y toma de decisiones, una acumulación de capacidad de recopilación de datos y módulos de operación y evaluación.

La capa de datos comerciales cubre el control de riesgos del comportamiento del usuario en todos los escenarios. Desde la activación del dispositivo->registro de cuenta\inicio de sesión->exploración de contenido->interacción->liberación de contenido, se puede realizar la prevención y el control conjuntos desde múltiples niveles de escena. Para usuarios claramente tramposos, deniegue directamente el acceso para fortalecer las barreras de defensa de acceso; para usuarios sospechosos de anomalías o registros de trampas muy difíciles, se recomienda retrasar el procesamiento o interceptar y manejar enlaces clave posteriores, lo que puede lograr el propósito de aumentar los costos de elusión: Específicamente, si se intercepta directamente durante el registro, el tramposo puede verificar rápidamente el motivo de la interceptación; después de la interceptación retrasada, se vuelve más difícil localizar e identificar al tramposo, y el costo de encontrar un método de derivación también es mayor.

En la capa de acceso a datos , el motor de control de riesgos admite el acceso a solicitudes en tiempo real, así como el acceso a transmisión en tiempo casi real y el acceso a datos fuera de línea.

La capa de procesamiento de datos se centra en procesar y extraer características de identidad, entorno de red, información del dispositivo, datos de comportamiento, características de series de tiempo, factores acumulativos, etc., y los ingresa en la capa de análisis de decisiones.

La capa de análisis de decisiones consta de un motor de estrategia, un motor de modelo y un motor de datos. El motor de políticas completa la salida y devolución de reglas en tiempo real y admite una configuración de políticas flexible y políticas en línea y fuera de línea. El motor de modelos se puede utilizar para el servicio en línea de modelos simples; para modelos complejos o modelos que requieren análisis, debe implementarse casi en línea o fuera de línea.

La capa de capacidad de recopilación de datos incluye la recopilación de huellas digitales del dispositivo, un sistema de listas, perfiles de riesgo, cálculo de diagramas de relaciones y módulos de eventos de riesgo. Por un lado, sirve como fuente de datos para la capa de análisis y toma de decisiones. Por otro lado, realizar la migración y uso de capacidades de reconocimiento, etc. La capa de análisis de decisiones también se enviará a la capa de acumulación de capacidad, y los puntos de riesgo recientemente identificados se colocarán en la capa de acumulación de capacidad para su reutilización en otros escenarios de riesgo.

Esta parte comparte principalmente la identificación y gestión de riesgos de cepillado de datos en la comunidad Xiaohongshu.

1. Práctica antitrampas de cepillado de datos: gestión de riesgos

El vínculo con la gestión de riesgos es crucial: en la práctica, hemos descubierto que los mismos resultados de identificación tienen efectos muy diferentes cuando se seleccionan diferentes objetos y métodos de gobernanza.

Para compartir nuestra comprensión, podemos analizar el problema del cepillado de datos desde tres niveles: impacto, vínculo de implementación y motivación para hacer trampa:

P: ¿Cuál es el impacto del vaciado de datos?

R: Falsos fans de blogueros, falsos me gusta, colecciones, compartir, leer, etc. de notas.

P: ¿Cuál es el enlace para lograr el volumen del pincel?

R: Los compradores por volumen compran servicios de cepillado por volumen o realizan pedidos en plataformas de crowdsourcing, etc.; los compradores por volumen brindan servicios para obtener ganancias.

P: ¿Cuál es la verdadera motivación detrás de hacer trampa?

R: El comprador de volumen espera aumentar el valor de su propio tráfico utilizando datos falsos, pero el valor es falso. Quiere crear un valor alto falso para lograr la monetización del tráfico comercial.

Tenemos algunas opciones de gobernanza diferentes:

1. El plan de gestión del impacto es limpiar los ingresos de esta parte del comportamiento de trampa. Sin embargo, si sólo limpia el tráfico falso, la única pérdida es el dinero pagado para comprar el volumen. Pero para los compradores por volumen, también pueden probar otros servicios de trampa. Debido a que el precio de compra de trampas no será muy alto, la posibilidad de intentos continuos es muy alta. El punto clave es que no hay ningún costo marginal por intentar hacer trampa. Por ejemplo, si alguien roba algo y simplemente pide que le devuelvan el dinero robado, en lugar de arrestarlo, ganará dinero mientras no sea descubierto.

2. En cuanto a la implementación de enlaces, debemos gestionar las cuentas que participan en fraudes y engaños. Por ejemplo, si se identifica una cuenta de máquina utilizada para cepillarse, la plataforma prohibirá la cuenta. Teniendo en cuenta el costo de las cuentas, quienes brindan servicios de cepillado tendrán cada vez menos cuentas, el costo de crear una cuenta aumentará, el precio de los servicios de cepillado aumentará y el costo de los usuarios de cepillado aumentará cuando prueben nuevos métodos. También será más alto.

3. Desde la perspectiva de los motivos de trampa, los derechos de distribución de tráfico se reducirán o los derechos e intereses comerciales se restringirán según el grado de trampa. Limite la distribución del tráfico para las notas que compran tráfico fraudulento. Después de hacer trampa, puede obtener menos tráfico que sin hacer trampa. El segundo es restringir los derechos comerciales de los blogueros que compran tráfico fraudulento, porque muchos compradores de volumen quieren monetizar su tráfico mediante la comercialización, y las restricciones a los derechos comerciales les impiden cooperar comercialmente, lo que supone una enorme pérdida para los tramposos. El efecto de gobernanza de este módulo puede reducir en gran medida la disposición de los compradores por volumen a hacer trampa. En la práctica, al pasar de la gobernanza [impacto del riesgo] a la gobernanza [vínculo de implementación] y [motivación para hacer trampa], se reduce la disposición a hacer trampa y se reduce significativamente la magnitud de las trampas.

2. Práctica antitrampas de cepillado de datos: identificación de riesgos

La práctica de identificación de riesgos del cepillado de datos se divide en tres etapas, y el plan de identificación se repite continuamente a medida que se desarrolla la confrontación.

En la primera etapa , cuando no hay control ni confrontación de riesgos, es relativamente fácil descubrir riesgos y los riesgos no están muy disimulados. En esta etapa la identificación de anormalidades se basa en las características del sujeto conductual. El supuesto básico es que el sujeto que hace trampa tiene claras características anormales. Los métodos de identificación correspondientes incluyen estrategia de límite de velocidad, verificación de parámetros, anomalías ambientales, falsificación de equipos e identificación de modificaciones, así como aprendizaje supervisado basado en características estadísticas. La ventaja es que el método de identificación es muy interpretable. La desventaja es que es relativamente fácil de evitar. Tomemos como ejemplo la estrategia de límite de velocidad: el efecto de interceptación es obvio al comienzo del lanzamiento, pero pronto el tramposo alcanzará el umbral del límite de velocidad y podrá ser evitado reduciendo la velocidad. Pero desde un nivel de confrontación, el umbral no se puede bajar infinitamente, cuando la velocidad coincide con la de los usuarios normales, el umbral no se puede bajar.

Cuando la primera fase de los ataques de identificación entró en vigor y se produjeron enfrentamientos, el análisis de un solo punto ya no pudo cubrir la mayoría de los riesgos. Por lo tanto, en la segunda etapa, las anomalías se extraen basándose en el análisis de las características de los sujetos de comportamiento grupal. La suposición básica es que existen claras similitudes características entre las bandas de tramposos. En términos de métodos de identificación, pruebe con algoritmos de agrupación en clústeres no supervisados ​​o con la extracción frecuente de elementos. La ventaja es que depende menos del conocimiento experto y puede encontrar nuevas bandas mediante métodos no supervisados; la desventaja es que la identificación puede evitarse hasta cierto punto mediante funciones falsificadas, mantenimiento de cuentas y máquinas reales.

Después de que la segunda fase se puso en línea , Black Grey Production ajustó el modo de trampa nuevamente. Se dio cuenta de que, en primer lugar, es necesario reforzar la autenticidad de los parámetros de mejora del equipo. El segundo es dividir la propiedad intelectual a través de agentes, o incluso probar el modelo de trampa del crowdsourcing en persona real.

En esta etapa, exploramos una vez más cuál es el patrón constante detrás del flujo de datos. La esencia del cepillado de volumen es que las personas que no tienen tráfico quieren falsificar sus propios datos. Los usuarios fraudulentos tienden a interactuar con notas/autores que a los usuarios normales no les gustan, y este tipo de interacción fraudulenta es de naturaleza por lotes. Para lograr resultados, los compradores por volumen no comprarán solo un truco. Bajo este supuesto, diseñamos la construcción de gráficos y algoritmos relacionados con gráficos basados ​​en relaciones topológicas. Durante el proceso de construcción, intente construir un gráfico isomorfo, como la relación entre personas, las aristas de personas que tienen comportamientos similares o las aristas de personas que han utilizado los mismos medios. También intentamos construir un gráfico heterogéneo. Se pueden construir muchas entidades en el gráfico heterogéneo, que no se limitan a personas o dispositivos, pueden ser IP, números de teléfonos móviles, objetos de comportamiento, etc. Una vez completada la composición, se pueden implementar en la estructura topológica la segmentación de gráficos, la minería de subgrafos de alta densidad, el modelo de descubrimiento comunitario o el modelo de propagación de etiquetas.

La ventaja de este tipo de esquema es que no es fácil pasar por alto; la desventaja es que si el tramposo continúa aumentando el costo de hacer trampa, cada cuenta e IP de trampa se utilizan muy raramente, y cuando solo se utiliza una pequeña cantidad de comportamiento. Cuando se realiza, es probable que la asociación se pierda durante el proceso de construcción del borde, lo que resulta en un reconocimiento perdido.

Sin embargo, en este caso, el costo de cada conducta de trampa es muy alto y básicamente se ha logrado el objetivo de aumentar el costo de las trampas.

Supongo que te gusta

Origin blog.csdn.net/REDtech_1024/article/details/130198804
Recomendado
Clasificación