Análisis práctico: crear una plataforma variable de características de control de riesgos para potenciar la toma de decisiones basada en datos

Existen amplios requisitos de control de riesgos en aspectos como el acceso al crédito y la comercialización de transacciones de productos comerciales financieros. A medida que aumentan los tipos de negocios, las reglas expertas tradicionales y los modelos de cuadros de mando no pueden hacer frente a escenarios de control de riesgos cada vez más complejos.

En el contexto del control de riesgos tradicional, donde los sistemas de reglas expertos son la aplicación principal, los hábitos de entrada de los modelos de reglas se denominan "variables". La evaluación de riesgos basada en reglas de expertos tiene las características de que es difícil cuantificar el umbral de activación de la regla y existe un cuello de botella para mejorar la precisión de los aciertos de la regla.

Con la implementación técnica del aprendizaje automático y los algoritmos de redes neuronales, se están comenzando a utilizar cada vez más "características" para referirse a los parámetros de entrada proporcionados al modelo de algoritmo . Específicamente, las "características" sirven como parámetro de salida de la interfaz externa ascendente durante su proceso de salida y sirven como parámetro de entrada del modelo de reglas descendente durante el proceso de entrada del lado de la aplicación.

fondo de construcción

Las fuentes de datos variables de características incluyen información básica del cliente, estado financiero, comportamiento de consumo y gráficos de redes sociales, etc., que se ingresan en diferentes modelos de control de riesgo para reflejar el estado crediticio y el nivel de riesgo del prestatario. La gestión eficiente de extracción de características es una serie de en línea. base de datos para las acciones de control de riesgos.

En instituciones financieras como bancos y compañías de seguros, debido a la complejidad de la estructura organizativa de las fuentes comerciales de riesgo, inevitablemente se produce un desarrollo tipo chimenea de variables características entre diferentes líneas. Las necesidades de datos de los modeladores de estrategias a menudo se limitan a un determinado. El producto se ha desarrollado e implementado, pero no ha formado un mecanismo unificado de plataforma de administración e intercambio, lo que genera desviaciones en la coherencia del uso de datos y la generación de políticas entre empresas.

Por lo tanto, es necesario producir aún más la abstracción del proceso de datos comerciales de riesgo para estandarizar la derivación, el almacenamiento, la llamada y el monitoreo de las variables características, y también ha surgido una plataforma unificada de variables características de control de riesgos .

Análisis de puntos débiles

En el escenario de desarrollo de la tarea de control de riesgos, la tarea modelo recupera números de la tabla de almacenamiento de variables desarrollada previamente. En el desarrollo real, a menudo existen puntos débiles en el negocio y el desarrollo, como un umbral alto para el desarrollo y la implementación de funciones, dificultad para extraer funciones complejas, calibres de aplicación de funciones inconsistentes y procesos de procesamiento de funciones inconsistentes.

01 El umbral para desarrollar variables de funciones en tiempo real es alto

La pila de tecnología de los modeladores de estrategias relacionadas con el negocio de control de riesgos se basa principalmente en las capacidades de Python y SQL. Además del entrenamiento y la implementación de modelos basados ​​​​en datos fuera de línea y funciones en tiempo real, el desarrollo de Flink tiene un cierto costo. Las capacidades de procesamiento son insuficientes.

02 Es difícil extraer variables de características complejas

Los mensajes de retorno de algunas interfaces de fuentes de datos externas tienen muchos niveles anidados, la ubicación de los parámetros es confusa, la interfaz es difícil de obtener y falta una gestión y mantenimiento de plataforma unificada para las funciones extraídas.

03 El calibre de aplicación de las variables de características es inconsistente

Al construir un modelo de control de riesgos , las tareas del modelo tienen los mismos requisitos de variables de características, pero hay situaciones en las que el procesamiento de ingeniería de características se repite para los mismos datos originales en diferentes equipos o diferentes proyectos, lo que da como resultado la coherencia y precisión del SQL correspondiente después La lógica de la variable característica ha cambiado.

04 Es difícil unificar el proceso de procesamiento de variables características.

Los requisitos para las nuevas variables de características en el lado de la estrategia y el modelo descendentes carecen de una ruta de procesamiento consistente y estandarizada, lo que resulta en una denominación confusa de los parámetros entrantes y salientes en la tabla de variables correspondiente. Cuando se agregan los nuevos campos, la tabla ascendente no se puede leer. El SQL original, lo que da como resultado operaciones de unión anidadas más complejas. Con la configuración de funciones derivadas y conjuntos de variables , la escala de las tareas y el uso de recursos suelen ser difíciles de controlar.

Plan de construcción del sistema variable característica de control de riesgos.

La construcción del sistema de variables características de control de riesgos se centra en la identificación, prevención y control de riesgos en tiempo real de las instituciones financieras . A través de la extracción por lotes, la agregación y el procesamiento derivado de datos heterogéneos de múltiples fuentes, se crea una plataforma de variables características unificada que está estandarizada y es fácil de expandir. Se precipita para lograr el acceso a los datos, función de generación de variables , bucle cerrado de extremo a extremo que proporciona datos para el entrenamiento del modelo posterior y la ejecución de decisiones, mejorando la velocidad de respuesta a eventos de riesgo y la precisión de la toma de decisiones.

01 Capacidades técnicas

Las empresas de control de riesgos a menudo enfrentan requisitos de procesamiento de datos en tiempo real en transacciones de clientes, aprobación de crédito y otros escenarios, la computación en flujo puede actualizar las calificaciones crediticias de los clientes, el control de límites y otra información de riesgo en tiempo real, proporcionando capacidades de identificación de riesgos entre sistemas en tiempo real. para motores de toma de decisiones posteriores.

archivo

En la arquitectura del sistema de tecnología de control de riesgos en tiempo real , la computación incluye computación por lotes, computación de flujo y computación de gráficos. Tomando como ejemplo las capacidades de computación de flujo, Flink proporciona capacidades de computación de características subyacentes en tiempo real, que se utilizan principalmente para datos ETL y tablas amplias . procesamiento y procesamiento de ventanas Computación, unión de flujo dual y otros escenarios, a través del cálculo previo, el cálculo de agregación de estado y otras capacidades, se realiza el procesamiento de variables de características originales, variables de características estándar y variables de características derivadas para proporcionar soporte de características. modelos de toma de decisiones.

El motor de modelos es el principal responsable de almacenar y administrar varios modelos entrenados, como modelos de calificación crediticia, modelos de detección de fraude , modelos de advertencia de abandono, etc.

El motor de decisiones gestiona de forma centralizada modelos de políticas como conjuntos de reglas, árboles de decisión, matrices de decisión y cuadros de mando. El conjunto de reglas llama al servicio de variables de características y al servicio de modelo del motor de modelos para participar en la operación lógica del flujo de decisiones.

Basado en fuentes de datos heterogéneas, el motor de variables de funciones realiza la extracción, el procesamiento y el cálculo de datos, la gestión y el mantenimiento estandarizados y permite consultas de autoservicio por parte del personal de control de riesgos, lo que hace que la recuperación y el análisis de datos comerciales sean más convenientes y estandarizados.

archivo

02 fuente de datos

Tomando como ejemplo la fuente de datos comerciales de crédito, según las diferentes entidades de crédito, generalmente se puede dividir en crédito personal To C y crédito corporativo To B. En las revisiones comerciales reales, los administradores de cuentas suelen analizar la viabilidad del crédito de los clientes basándose en dos indicadores: el nivel de flujo de caja y el nivel de deuda.

En el escenario del crédito personal, los niveles de flujo de caja de los clientes se pueden desglosar en flujo de ingresos de pagos de seguridad social, bancos y plataformas de pagos de terceros. El nivel de responsabilidad proviene principalmente del informe crediticio del Banco Popular de China, que cubre todos los préstamos emitidos por instituciones financieras a nombre de un individuo, productos financieros que ocupan exposiciones de riesgo e información de garantía externa. Además del Banco Popular de China, los datos del informe crediticio. Las fuentes incluyen otros informes crediticios individuales con licencia de terceros, como Baihang Credit Information, Pudao Credit Information y Qiantang Credit Information.

En el escenario del crédito corporativo, las fuentes de riesgo de los préstamos pequeños y micro inclusivos se concentran en el flujo personal del controlador real, el nivel de flujo de efectivo se recopila simultáneamente del flujo de la cuenta corporativa y, adicionalmente, el nivel de pasivo. accedido desde el informe de crédito corporativo del Banco Popular de China. En el marco de la concesión de créditos a medianas y grandes empresas y de préstamos específicos de la industria, los eventos de comportamiento de riesgo de las principales entidades son difíciles de medir directamente con base en datos de impuestos crediticios. A diferencia de los préstamos inclusivos para pequeñas y microempresas, se necesita una mayor diligencia debida fuera de línea. que se combinará con el inventario in situ de la empresa y las condiciones operativas de las empresas afiliadas.

Para los dos tipos de negocios crediticios anteriores, el procesamiento de características a menudo recopila las siguientes fuentes de datos multidimensionales:

archivo

03 Procesamiento de datos

Para fuentes de datos en diferentes escenarios de control de riesgos, se utilizan métodos de procesamiento de variables que integran lotes, flujos, precálculos y otros modos para lograr un desarrollo ágil de las necesidades comerciales y el control de costos de almacenamiento y cálculo.

Computación por lotes: para conjuntos de datos históricos a gran escala, el procesamiento por lotes se utiliza para procesar variables de características. Problemas como valores faltantes y valores atípicos en los datos se procesan mediante métodos como la interpolación y el suavizado para garantizar la calidad de los datos.

Computación de flujo: para flujos de datos en tiempo real, el modo de procesamiento de flujo se utiliza para el procesamiento de variables de características. A través de la tecnología de procesamiento de flujo en tiempo real , se realiza un análisis de datos en tiempo real para cumplir con los requisitos en tiempo real de los escenarios de control de riesgos. Al mismo tiempo, se adopta una arquitectura basada en eventos para garantizar la eficiencia y flexibilidad del procesamiento de datos.

Precálculo: para los datos del sistema empresarial, precalcule y almacene las variables de características de acuerdo con su frecuencia de cambio, lo que puede reducir efectivamente los costos de cálculo del flujo y mejorar la eficiencia del sistema de toma de decisiones al obtener datos del motor de características.

04 Construcción de plataformas

Específicamente, la plataforma de variables características necesita integrar datos de múltiples fuentes, como sistemas de informes crediticios, fuentes de datos de terceros y sistemas corporativos internos, y realizar procesamiento derivado de capacidades de procesamiento por lotes, para respaldar los requisitos de entrada de los modelos de control de riesgos en diferentes escenarios de negocios. Admite métodos de procesamiento de código bajo configurables y dirigidos por el negocio para variables de características de diferente complejidad. Por lo tanto, la construcción de una plataforma de características variables generalmente incluye los siguientes aspectos:

1. Extracción y generación de variables de características, limpieza y preprocesamiento automatizados de datos, convierta datos sin procesar en características que puedan usarse para modelar. Proporciona un modelo WEB IDE integral basado en lienzo + componentes para mejorar la eficiencia del desarrollo y admite la lógica de cálculo de funciones definida por el usuario o integrada en el sistema.

2. Función de almacenamiento y gestión de variables.

Basado en un mecanismo de almacenamiento distribuido , almacena datos característicos históricos y en tiempo real a gran escala. Implemente el control de versiones de funciones, registre el historial de cambios de la lógica de cálculo de funciones y asegúrese de que el entrenamiento del modelo pueda rastrearse hasta una versión específica de datos.

3. Servitización de variables características.

Proporciona una interfaz de servicio de funciones para proporcionar servicios de consulta de funciones en tiempo real o por lotes para varios motores de toma de decisiones, predicción y entrenamiento de modelos. A través del componente de salida, puede conectarse rápidamente a motores de reglas posteriores, almacenes de datos en tiempo real y colas de mensajes para cumplir con los requisitos de rendimiento de baja latencia y alto acceso simultáneo en escenarios comerciales complejos.

4. Exploración y análisis de variables características

Proporciona una gran cantidad de herramientas de análisis estadístico para ayudar a los analistas a comprender rápidamente la distribución de variables características, las relaciones de correlación, etc. La interfaz visual muestra la importancia, la influencia y otros indicadores de las características para ayudar en la selección e iteración de las características.

5. Integración con sistemas internos y externos.

Integre múltiples fuentes de datos, como sistemas comerciales internos de instituciones financieras, sistemas CRM y sistemas ERP. Admite la conexión con otros componentes de control de riesgos (como motores de reglas, bibliotecas de modelos, etc.) y proveedores de servicios de datos de terceros, como informes crediticios externos.

05 Ingresos de la construcción

En la implementación del proyecto de variables características del cliente de un banco, la plataforma satisface las necesidades de procesamiento y gestión de derivados de variables características en escenarios de crédito previos al préstamo y se conecta con fuentes de datos diversificadas, como operadores externos, datos industriales y comerciales y judiciales. y la información del equipo interno del cliente del banco, la información de las transacciones de la cuenta y la valoración de los activos y los datos de cálculo de límites recopilados antes del préstamo. A través de capacidades de cálculo de variables de características en tiempo real , se puede aplicar a modelos posteriores, como cuadros de mando, para proporcionar datos.

archivo

1. Extracción de variables características basada en componentes

La plataforma analiza variables de características en lotes a partir de comandos SQL. Para los requisitos de adquisición de datos de las tareas del modelo, los usuarios pueden procesar y combinar libremente las variables de características requeridas en la plataforma y escribirlas en la tabla de colmenas temáticas correspondiente para su lectura y procesamiento.

2. Actualización sincrónica de conjuntos de variables de características.

La página admite agregar, eliminar y editar conjuntos de variables de características, y las operaciones de la estructura de la tabla de la plataforma se sincronizan automáticamente con la tabla del modelo físico. Cuando la lógica de las variables de características cambia, solo necesita editar el código derivado de la variable de característica estándar correspondiente o la operación de estandarización de la variable de característica original para evitar el desarrollo complejo de funciones SQL grandes.

3. Monitoreo de estabilidad y anormalidades.

La función del panel de monitoreo proporcionada por la plataforma admite el monitoreo de la fluctuación de las variables características y la llamada de conjuntos de variables. El monitoreo de los valores de las variables características garantiza que cuando los datos ascendentes sean anormales, las tareas posteriores se detengan a tiempo, por lo tanto. maximizar la posibilidad de evitar problemas causados ​​por diferencias excesivas en las variables características cuando se utiliza el modelo. Distorsión de los resultados del modelo sobre el estado de llamada de cada conjunto de variables y envío en tiempo real de alarmas de referencia e información de verificación de reglas fuertes y débiles.

4. Gestión y control de plataforma unificada

La plataforma proporciona administración de miembros, centro de aprobación, análisis de llamadas, archivo automático, reinicio de tareas y otros métodos de administración y control, admite el ajuste de prioridad de las tareas y programa uniformemente las operaciones de las tareas para mejorar el rendimiento del servicio de datos y la utilización de los recursos del clúster.

La plataforma se implementó en línea, cubriendo y respaldando más de 30 escenarios crediticios para préstamos al consumo, pequeños y microcréditos y otras empresas. Al combinarse con el motor de modelo de reglas descendente, la plataforma variable característica implementa capacidades de toma de decisiones en tiempo real en escenarios de control de riesgos, lo que satisface la necesidad de mejorar la experiencia del cliente de los usuarios y la eficiencia de los préstamos en la solicitud de tarjetas de crédito y aprobación de préstamos. procesos en escenarios de crédito previos al préstamo. Además, también proporciona datos para el cobro posterior al préstamo, antifraude de transacciones y otros escenarios, respaldando sistemas posteriores para monitorear los comportamientos de transacciones anormales de los usuarios en tiempo real y llevar a cabo la identificación de identidad contra el lavado de dinero. y activar alarmas en tiempo real.

Dirección de descarga del "Informe técnico del producto Dutstack": https://www.dtstack.com/resources/1004?src=szsm

Dirección de descarga del "Libro técnico sobre prácticas de la industria de gobernanza de datos": https://www.dtstack.com/resources/1001?src=szsm

Para aquellos que quieran saber o consultar más sobre productos de big data, soluciones industriales y casos de clientes, visite el sitio web oficial de Kangaroo Cloud: https://www.dtstack.com/?src=szkyzg

Linus se encargó de evitar que los desarrolladores del kernel reemplazaran las pestañas con espacios. Su padre es uno de los pocos líderes que puede escribir código, su segundo hijo es el director del departamento de tecnología de código abierto y su hijo menor es un núcleo de código abierto. Colaborador Robin Li: El lenguaje natural se convertirá en un nuevo lenguaje de programación universal. El modelo de código abierto se quedará cada vez más atrás de Huawei: tomará 1 año migrar completamente 5,000 aplicaciones móviles de uso común a Hongmeng, que es el lenguaje más propenso. Vulnerabilidades de terceros. Se lanzó el editor de texto enriquecido Quill 2.0 con características, confiabilidad y experiencia de desarrolladores que Ma Huateng y Zhou Hongyi se dieron la mano para "eliminar los rencores". La fuente de Laoxiangji no es el código, las razones detrás de esto son muy conmovedoras. Google anunció una reestructuración a gran escala.
{{o.nombre}}
{{m.nombre}}

Supongo que te gusta

Origin my.oschina.net/u/3869098/blog/11045960
Recomendado
Clasificación