Red de conocimiento informático - Aprendizaje de código fuente - Análisis de datos para el control de riesgos

Análisis de datos para el control de riesgos

A principios de la década de 1990, las empresas estadounidenses de tarjetas de crédito, lideradas por American Express, comenzaron a utilizar el modelado de datos para mejorar las capacidades de control de riesgos y resolver problemas como el marketing de precisión. Más tarde, Discovery y Capital One también comenzaron a utilizar el modelado de datos. p>U.S. American Express comenzó a poner a prueba el modelo de control de riesgos en 1995 y lanzó el sistema de control de riesgos en 1997. AMEX comenzó a poner a prueba su modelo de gestión de riesgos en 1995 y lanzó el sistema en 1997. En los años posteriores, AMEX ha mantenido altas tasas de crecimiento y ha reducido los préstamos morosos a los niveles más bajos de la industria.

En 2008, Discover trasladó su centro de análisis de datos global a Shanghai. Los talentos de control de riesgos del centro se distribuyen entre las principales compañías de fondos mutuos de China

Tipos de negocios: préstamos hipotecarios (préstamos hipotecarios, préstamos para automóviles), préstamos de crédito (como Yirendai), préstamos al consumo a plazos (teléfonos móviles, electrodomésticos , etc.), pequeños préstamos en efectivo (menos de 500 yuanes). ), pequeño préstamo en efectivo (500/1000/1500), etc.

El control de riesgos involucra los siguientes negocios:

1) Recopilación de datos: datos crediticios, datos del operador, rastreadores, puntos del sitio web, número histórico de préstamos, puntos del sitio web, datos históricos de préstamos, lista negra, terceros -datos del partido, etc.

?2) Motor antifraude: incluye principalmente normas antifraude y modelos antifraude.

?3) Motor de reglas: comúnmente conocido como estrategia. Utiliza principalmente métodos de análisis de datos para contar las tasas de morosidad en diferentes campos y diferentes intervalos, y luego selecciona personas con mejor crédito para otorgar préstamos

4) Modelo y cuadro de mando de control de riesgos: ¿Los algoritmos del modelo no tienen relación entre sí? La diferencia obvia es simplemente que se dividen según el momento en que ocurren (antes del préstamo/durante el préstamo/después del préstamo), es decir, la forma en que se genera el objetivo es diferente. Generalmente el campo de crédito define la variable objetivo en términos de días de mora. La Tarjeta A puede usar el número máximo de días de mora en el historial del cliente y la Tarjeta B puede usar el tiempo máximo de mora en múltiples cuotas de préstamos. Debido a diferentes usos, las tarjetas C tienen diferentes métodos de establecimiento

5) Cobro: Es el medio definitivo de control de riesgos. Este enlace puede generar una gran cantidad de datos que son útiles para el modelo, como descripciones de texto de registros de recolección, tasas de llegada, etiquetas de fraude, etc.

1) Los rastreadores pueden rastrear información de aplicaciones móviles. Podemos dividir las aplicaciones móviles en 4 categorías: herramientas, sociales, de entretenimiento y financieras. Calcula el número de APPs de cada tipo, de modo que queden 4 características

2) A partir de los datos del operador puedes saber cuántas llamadas realizó el cliente, cuántos mensajes de texto envió, cuántos datos utilizados y si tenían atrasos y otra información

3) El informe de crédito suele ser una puntuación de crédito simple. En términos generales, cuanto mayor sea la puntuación, mejor será la calidad del cliente.

4) A partir de la información básica Obtenga el perfil de usuario de la tarjeta de identificación, por ejemplo, obtenga las tres características de edad, sexo y registro de hogar de la tarjeta de identificación

La versión mejorada de la lista negra es la regla motor. Sin embargo, se genera empíricamente. Por ejemplo, una compañía de seguros puede negarse a adquirir cobertura de devolución para alguien que devuelve artículos 5 veces seguidas o tiene una tasa de devolución del 80%. Estas reglas generalmente requieren mucho esfuerzo para mantenerse, actualizarse y modificarse constantemente; de ​​lo contrario, provocarán una gran cantidad de falsos positivos. Para presuntos adelantos en efectivo, si el número supera una determinada cantidad, se recomienda denegar el acceso o prestarle especial atención. El número de solicitudes de préstamo dentro de XX días es mayor que un valor determinado, se recomienda rechazarlo.

Por ejemplo, podemos establecer una regla de acceso, como que la ocupación es funcionario, médico, abogado, etc.

También puede establecer el principio de los préstamos directos, como que la puntuación de Sésamo es superior a 750 puntos.

Cómo determinar la variable objetivo: tomando una tarjeta como ejemplo, es determinado principalmente por la tasa móvil y el año. Tomando la Tarjeta A como ejemplo, podemos definir a los clientes que están atrasados ​​por más de 60 días dentro de ocho meses como malos clientes, y a los clientes que no han estado atrasados ​​dentro de ocho meses como buenos clientes. Los clientes que tienen ocho meses de retraso en un plazo de 0 a 60 días son clientes inciertos y no están incluidos en la muestra.

1) Preparación temprana: diferentes modelos son adecuados para diferentes escenarios comerciales. Antes de comenzar el proyecto de modelado, es necesario tener una comprensión clara de la lógica y los requisitos comerciales.

2) Modelo. diseño: Incluyendo la elección del modelo (cuadro de mando o modelo integral), ya sea para hacer un solo modelo o para hacer subdivisiones del modelo. Si es necesaria la inferencia de rechazo, cómo definir el período de observación, el período de desempeño, los buenos usuarios y los malos usuarios. Determine la fuente de datos

3) Extracción y limpieza de datos: extraiga datos del grupo de datos de acuerdo con la definición del período de observación y el período de rendimiento, y realice la limpieza de datos y la verificación de la estabilidad. La limpieza de datos incluye anomalías, borrados, duplicaciones, etc. La verificación de estabilidad examina principalmente la estabilidad de las variables en series de tiempo. Los indicadores incluyen PSI, IV, media/varianza, etc.

4) Ingeniería de funciones: principalmente funciones de preprocesamiento y cribado. El cuadro de mando se filtra principalmente por IV. Además, la construcción de funciones se basará en la comprensión empresarial, incluida la intersección de funciones (multiplicación/división/producto cartesiano de dos o más funciones), la transformación de funciones, etc.

5) Construcción y evaluación de modelos: el cuadro de mando se puede utilizar con regresión logística, simplemente haga predicciones binarias seleccionando xgb. Una vez establecido el modelo, es necesario evaluarlo, calcular auc y ks y realizar una validación cruzada del modelo para evaluar la capacidad de generalización

6) Establecimiento y evaluación del modelo: establecer y evaluar el modelo. Capacidad de generalización

6) Implementación del modelo en línea: configure las reglas del modelo en segundo plano de control de riesgos. Para algunos modelos complejos como xgb, el archivo del modelo generalmente se convierte al formato pmml y se encapsula. Cargue archivos y parámetros de configuración en segundo plano

7) Monitoreo del modelo: la etapa inicial es principalmente monitorear la estabilidad del modelo general y las variables. La medida principal es el PSI (Índice de Estabilidad de la Población). En realidad, PSI es la diferencia entre el porcentaje real y el porcentaje esperado después de cada intervalo de puntuación. Si es inferior a 10, no es necesario actualizar el modelo. Si es menos de 25, el modelo necesita atención. Si es mayor que 25, es necesario actualizar el modelo. El modelo de cálculo psi generalmente usa la misma frecuencia y se puede dividir en 10 cuadros

1. ¿Cuáles son los significados y diferencias de la tarjeta A, la tarjeta B y la tarjeta C?

Una tarjeta (tarjeta de puntuación de la aplicación): es decir, solicitar una tarjeta de puntuación durante el proceso de solicitud del cliente, predice la probabilidad de riesgo de incumplimiento y el incumplimiento dentro de un cierto período de tiempo después de que el cliente abre una. cuenta, eliminando efectivamente los clientes con mal crédito y los clientes no objetivo Aplicar. Además, se valora el riesgo para los clientes, para determinar montos y tasas de interés. Los datos utilizados son principalmente el historial crediticio anterior del usuario, múltiples préstamos, registros de consumo y otra información.

Tarjeta B (tarjeta de puntuación de comportamiento): la tarjeta de puntuación de comportamiento, durante el período de gestión de la cuenta, predice el rendimiento crediticio futuro de la cuenta en función de varias características de comportamiento que se muestran en el historial de la cuenta. El primero es prevenir y controlar los riesgos crediticios y el segundo es ajustar las líneas de crédito de los usuarios. Los datos utilizados son principalmente el inicio de sesión del usuario, su navegación, su comportamiento de consumo y otros datos de esta plataforma. También hay datos sobre el rendimiento de los préstamos, como los reembolsos de los préstamos y los préstamos vencidos.

Tarjeta C (Tarjeta de puntuación de cobranza): Tarjeta de puntuación de cobranza, que predice cuentas vencidas y refleja la probabilidad de las estrategias de cobranza, para tomar las medidas de cobranza correspondientes

Las diferencias entre las tres tarjetas:

Los requisitos de datos son diferentes: la tarjeta A generalmente puede realizar análisis de crédito para préstamos de 0 a 1 año, mientras que la tarjeta B requiere que el solicitante tenga ciertos comportamientos y tenga datos más amplios para el análisis. La tarjeta C tiene requisitos de datos más altos y necesita incluir datos de atributos como la reacción del cliente después del pago.

Diferentes características: una tarjeta utiliza principalmente la información general del solicitante, como la información básica completada por el cliente. , el tercero Información de terceros, etc. Y este modo es generalmente más cauteloso. Las Tarjetas B aprovechan muchas funciones basadas en transacciones.

2. Por qué elegir el modelo de regresión logística en el campo del control de riesgos, y cuáles son sus limitaciones

1) En primer lugar, porque la regresión logística no responde a cambios en grupos de clientes como otros modelos de alta complejidad Sensible, muy robusto

2) El modelo es intuitivo, el significado de los coeficientes está claramente expresado y es fácil de entender

La desventaja es que es fácil de insuficiente y la precisión no es muy alta.

Además, los requisitos de datos son relativamente altos y la linealidad faltante, anormal y de características **** son todas sensibles

3. ¿Por qué se usa IV en lugar de WOE para filtrar características?

Porque IV tiene en cuenta el efecto de las proporciones muestrales dentro de los subgrupos. Incluso si el WOE de este subgrupo es muy alto, la proporción de muestra de este subgrupo es muy pequeña y el poder predictivo de esta característica puede seguir siendo muy pequeño al final

4. Indicadores ROC y KS ( ks es más preciso entre 0,2 y 0,75 Bueno, auc es mejor entre 0,5 y 0,9)

La curva ROC trata a TP y FP como abscisas y ordenadas, mientras que la curva KS trata a TP y FP como ordenadas y abscisas. La curva KS toma TP y FP como ordenadas y abscisas, y la abscisa es el umbral. KS puede encontrar el subgrupo con la mayor diferencia en el modelo. Si es mayor que 0,2, la precisión de la predicción se puede considerar alta. ROC puede reflejar el efecto de discriminación general

5. Método de selección de cuadros y monotonicidad de la tasa de falla

Actualmente, en la industria, utilizamos más algoritmos codiciosos para la selección de cuadros, como best_ks, chi -caja cuadrada, etc. La monotonicidad de la tasa mala solo se considera durante el proceso de selección de casillas para variables numéricas continuas y variables discretas ordenadas (como educación/tamaño). En cuanto a por qué deberíamos considerar la monotonía de la tasa de morosidad, es principalmente para facilitar la comprensión empresarial. Por ejemplo, cuanto más largo sea el historial de morosidad, mayor será la tasa de morosidad.

6. ¿Por qué los diferentes modelos de control de riesgos generalmente no utilizan las mismas características?

Personas que fueron rechazadas debido al mal desempeño de ciertas características. Si la evaluación se repite utilizando las mismas características, estos individuos no se incluirán en la muestra para futuros modelos a lo largo del tiempo. De esta manera, la distribución muestral de características cambiará.

7. ¿Cuáles son los algoritmos no supervisados ​​utilizados en el control de riesgos?

Algoritmo de agrupamiento, detección de valores atípicos basada en gráficos, LOF (factor de valores atípicos locales), bosque de aislamiento, etc. La idea básica es fusionar intervalos adyacentes con distribuciones de clases similares. El valor del cuadrado impar es una medida de la similitud entre dos intervalos. Cuanto menor es el valor del cuadrado impar, más similares son los dos intervalos. Por supuesto, no podemos fusionarlos indefinidamente, por lo que establecemos un umbral para ello. Podemos obtenerlo a partir de grados de libertad y confianza. Por ejemplo, si el número de categorías es N, entonces los grados de libertad son N-1 y la confianza representa la probabilidad de ocurrencia. Generalmente se puede tomar como 90.

9. Clasificación best-ks

A diferencia de la clasificación chi-cuadrado, la clasificación best-ks es un proceso de clasificación paso a paso. Los valores propios se clasifican de pequeño a grande, tomando el valor propio con el KS más grande como punto de corte y luego dividiendo los datos en dos partes. Repita este proceso hasta que la cantidad de contenedores alcance nuestro umbral preestablecido.

10. Inferencia de rechazo

El cuadro de mando de la aplicación se modela utilizando datos históricos de clientes de crédito aprobados, pero este modelo ignora esta parte del rechazo original El impacto de los segmentos de clientes en el modelo del cuadro de mando . Para que el modelo sea más preciso y estable, es necesario modificarlo mediante inferencia de rechazo. Además, los cambios en las reglas de la empresa pueden permitir que los clientes que fueron rechazados en el pasado regresen ahora. Adecuado para escenarios de tasa de aprobación media y baja.

Enfoque común: truncamiento estricto: la primera puntuación rechaza a los usuarios que utilizan un modelo inicial y establece un umbral. Los usuarios con una puntuación superior a este valor se marcan como buenos usuarios y viceversa como malos usuarios. Luego, los usuarios rechazados etiquetados se agregan a la muestra y se vuelve a entrenar el modelo. Método distributivo: este método es adecuado para cuadros de mando. La muestra se agrupa según la escala de calificación y se calcula la tasa de morosidad para cada grupo. Luego, los usuarios rechazados se califican y agrupan de acuerdo con el método anterior, y la tasa predeterminada de cada grupo se utiliza como proporción de muestreo. Los usuarios predeterminados en este grupo se seleccionan aleatoriamente y se designan como malos usuarios, y los usuarios restantes se marcan como buenos. usuarios.

Luego agregue los usuarios rechazados marcados a la muestra para volver a capacitarlos

11. Cómo garantizar la estabilidad del modelo durante el proceso de modelado

1) En la etapa de preprocesamiento de datos, puede ser verificado Estabilidad de variables en series de tiempo, los métodos incluyen: calcular la diferencia en IV mensuales, observar cambios en la cobertura de variables, diferencias de PSI en dos momentos temporales, etc. Por ejemplo, seleccionamos el conjunto de datos de enero a octubre, nos basamos en la idea de la verificación K-fold y obtuvimos 10 conjuntos de resultados de verificación. Observe si el modelo tiene cambios de tendencia relativamente grandes a medida que pasa el mes

2) En la etapa de selección de variables, elimine las variables que sean contrarias al entendimiento empresarial. Si es un cuadro de mando, puedes eliminar variables que estén demasiado diferenciadas, porque esta variable tiene un gran impacto en el modelo y la estabilidad se verá reducida

3) Hacer validación cruzada. Realice una validación cruzada, una es una validación cruzada en series de tiempo y la otra es una validación cruzada K-fold

4) Elija un modelo con buena estabilidad. Por ejemplo, xgb, bosque aleatorio, etc.

12. Cómo lidiar con características dispersas y débiles de alta dimensión

Para características dispersas de alta dimensión, la regresión logística funciona mejor que gbdt. La penalización de este último es principalmente la profundidad del árbol y el número de hojas. La penalización por datos escasos no es grave y es fácil de sobreajustar. Utilizando un cuadro de mando de regresión logística, las características se pueden discretizar en 0 y no 0 y luego codificar para duelo.

Si se utiliza el modelo de cuadro de mando, las características débiles generalmente se descartan. La cantidad de funciones entrantes utilizadas para el modelado del cuadro de mando no debe ser demasiado alta y, por lo general, debe ser inferior a 15. xgb no requiere muchos datos y tiene mayor precisión. La combinación cruzada de algunas características débiles puede producir resultados inesperados.

13. Después de que el modelo está en línea, se descubre que la estabilidad no es buena o que el efecto de diferenciación no es bueno después de que está en línea.

Si la estabilidad del modelo no es buena, primero debe verificar el modelado inicial. ¿Ha considerado la estabilidad de las funciones? Si se descubre que una variable es menos estable en la etapa inicial de modelado, puede considerar descartarla o reemplazarla con otras variables. Además, analice la diferencia entre la distribución de usuarios en línea y fuera de línea y la distribución de usuarios durante el modelado, y considere agregar un paso para rechazar la inferencia durante el modelado para acercar la distribución de la muestra de modelado a los usuarios reales de la aplicación en general

En línea si el efecto no es bueno, se puede analizar desde la perspectiva de las variables. Elimine variables con bajo rendimiento y descubra nuevas variables para agregar al modelo. Si un modelo ha estado en línea durante mucho tiempo y los atributos del usuario están cambiando lentamente, vuelva a elegir el número para crear el siguiente modelo

14. Cómo iniciar en frío el modelo de control de riesgos

Cuando el producto acaba de lanzarse, no se han acumulado datos de usuario, o los usuarios no han tenido un desempeño bueno o malo. En este momento, puede considerar: 1) No crear modelos, solo reglas. En combinación con la experiencia empresarial, establezca algunas reglas estrictas, como establecer umbrales de acceso de los usuarios, considerar los registros crediticios y los múltiples riesgos de los usuarios, y reglas para acceder a servicios antifraude y productos de datos de terceros. También se puede combinar con la revisión manual para realizar una evaluación de riesgos en los datos de la aplicación del usuario. 2) Utilizar modelos de datos de modelos similares.

15. Problema de desequilibrio de muestra

Además de ajustar los pesos de clase, se utilizan principalmente métodos de muestreo para resolverlo. Los más comunes incluyen supermuestreo aleatorio ordinario, SMOTE y ADASYN (supermuestreo integral adaptativo)

16. Procesamiento de datos del operador

Según la fecha de la llamada, el registro de la llamada se puede dividir en los últimos 7 días, el último medio mes, el último mes, los últimos tres meses, los últimos seis meses y otras ventanas de tiempo. También se puede dividir en días laborables, festivos, etc. según fechas concretas. Dependiendo del horario de llamada, el día se puede dividir en madrugada, mañana, tarde y noche. En cuanto a los números de teléfono, una idea es dividirlos en provincias y ciudades según su lugar de origen. Otra idea es distinguir entre entrega urgente, llamadas de acoso, instituciones financieras, intermediarios, etc. según las etiquetas de Phone State, Baidu. Guardia Móvil y Pase Numérico Sogou. Incluso distingue si el número es un usuario de la lista negra, un usuario de la aplicación o un usuario rechazado de la aplicación según la acumulación de negocios.

Las llamadas entrantes de usuarios con diferentes etiquetas numéricas pueden reflejar los hábitos de llamadas y las características de vida del usuario

17. Regresión gradual

Cuando la relación entre variables independientes es compleja, no es fácil de entender la relación entre variables Al elegir una relación de compensación, podemos usar la regresión por pasos para filtrar las variables. La idea básica de la regresión por pasos es introducir variables en el modelo una por una, realizar una prueba F en cada variable introducida y realizar una prueba t en las variables filtradas cuando las variables introducidas ya no son significativas después de la introducción de las siguientes. variables, elimine las variables originales. Antes de introducir nuevas variables cada vez, asegúrese de que solo se incluyan variables significativas en la ecuación de regresión

18. En la regresión logística, ¿por qué a menudo es necesario realizar una combinación de características (cruce de características)?

Regresión logística Pertenece a un modelo lineal generalizado y la combinación de características puede introducir características no lineales para mejorar la capacidad de expresión del modelo

Algunas referencias son las siguientes: /content/ qita/7733 ?/article/ jXwvkaB9t7mPWHxj9ymu /developer/article/1489429 /developer/article/1059236 /taenggu0309/Scorecard--Función