Red de conocimiento informático - Aprendizaje de código fuente - Métodos de evaluación del sistema de recomendación e indicadores de evaluación PR, ROC, AUC

Métodos de evaluación del sistema de recomendación e indicadores de evaluación PR, ROC, AUC

En el marco de conocimiento de todo el sistema de recomendación, la proporción de conocimiento relacionado con la evaluación del sistema de recomendación no es grande, pero su importancia es evidente, porque el uso de indicadores de evaluación afecta directamente la recomendación. La dirección de optimización es correcta o no. Los indicadores de evaluación se utilizan principalmente para evaluar el desempeño de varios aspectos del sistema de recomendación y se pueden dividir en evaluación fuera de línea y pruebas en línea según los escenarios de aplicación. Los principales métodos de evaluación fuera de línea incluyen prueba de exclusión, verificación cruzada, validación de dejar uno fuera, método de autoservicio, etc. Los indicadores de evaluación incluyen principalmente la satisfacción del usuario, la precisión de la predicción, la recuperación, la cobertura, la diversidad, la novedad, la popularidad, el error cuadrático medio, la pérdida logarítmica, la curva P-R, el AUC, la curva ROC, etc. Estos indicadores de evaluación se utilizan principalmente para evaluar el desempeño de los sistemas de recomendación. /fuerte>Espera. Los métodos de evaluación de pruebas en línea incluyen principalmente el método de prueba A/B, el método escalonado, etc. Los indicadores de evaluación incluyen principalmente tasa de clics, tasa de conversión, tasa de retención, número promedio de clics, etc. Este artículo se centrará en la tasa de clics, la tasa de conversión, la tasa de retención, el número promedio de clics, etc. Este artículo se centrará en los métodos e indicadores de evaluación fuera de línea, especialmente las curvas P-R, AUC, curvas ROC, etc. Estos indicadores de evaluación son los más utilizados y básicos y aparecen en varios documentos relacionados con recomendaciones, por lo que debemos centrarnos en ellos.

En el proceso de evaluación de los sistemas de recomendación, la evaluación fuera de línea se suele utilizar como el método de evaluación básico y más utilizado. Como sugiere el nombre, la evaluación fuera de línea se refiere a la evaluación realizada en el entorno fuera de línea antes de implementar el modelo en el entorno en línea. Dado que no se implementa en el entorno de producción, la evaluación fuera de línea no tiene los riesgos de ingeniería de la implementación en línea, no desperdicia valiosos recursos de tráfico en línea y tiene las ventajas de un tiempo de prueba corto, múltiples grupos de pruebas paralelas simultáneas y la capacidad de utilizar abundantes recursos informáticos fuera de línea.

Las deficiencias de la prueba Holdout también son obvias, es decir, los indicadores de evaluación calculados en el conjunto de verificación están directamente relacionados con la división del conjunto de verificación del conjunto de entrenamiento si solo hay una pequeña cantidad de pruebas Holdout. realizadas, las conclusiones obtenidas serán mayores. Para eliminar esta aleatoriedad, a alguien se le ocurrió la idea de realizar "pruebas cruzadas".

Resultados:

La precisión y la recuperación son dos métricas conflictivas: para aumentar la precisión, el clasificador sólo necesita intentar predecir una muestra como positiva cuando es "más segura", es decir , se reduce la parte denominador de la fórmula de precisión. Sin embargo, esto suele ser demasiado conservador y perderá muchas muestras positivas "no concluyentes", lo que dará como resultado una tasa de recuperación baja.

Tome la selección de sandías como ejemplo. Si desea seleccionar tantos melones buenos como sea posible, puede hacerlo aumentando el número de melones seleccionados. Si se seleccionan todas las sandías, entonces se deben seleccionar todos los melones buenos. seleccionado Esto dará como resultado una precisión baja, pero una recuperación relativamente alta. Si desea seleccionar tantos melones buenos como sea posible, solo puede seleccionar los melones más seguros, pero esto inevitablemente perderá muchos melones buenos, lo que reducirá la recuperación.

Para combinar resultados de precisión y recuperación, podemos utilizar la puntuación F1, que es el promedio de precisión y recuperación y se define de la siguiente manera:

Resumir con un gráfico:

p>

Luego, la tasa de verdaderos positivos (True Positive Rate TPR) y la tasa de falsos positivos (False Positive Rate, FPR) se calculan de la siguiente manera:

Observe cuidadosamente los dos anteriores. Fórmula de ecuaciones, se puede encontrar que los numeradores de estas dos ecuaciones en realidad corresponden a la segunda fila de la matriz de confusión, es decir, e. También se puede encontrar que TPR se divide por TP en la columna donde se encuentra TP, y FPR se divide por la columna en la que se encuentra FP. El significado de los dos es el siguiente:

El significado de la representación es que independientemente de si la categoría verdadera es 0 o 1, la probabilidad del modelo que predice que la muestra es 1 es igual a la muestra. .

En otras palabras, el modelo no tiene la capacidad de distinguir entre ejemplos positivos y negativos, y tomar una decisión no es diferente a lanzar una moneda al aire. Por lo tanto, creemos que el valor mínimo de AUC es 0,5 (por supuesto, también existe el caso extremo de predicción inversa, y el AUC es inferior a 0,5. Esta situación equivale a que el clasificador siempre confunda lo correcto con lo incorrecto, y lo incorrecto es En este caso, siempre que la categoría prevista sea Inversa, obtendrá un clasificador con AUC mayor que 0,5).

Entre ellos, 1 representa una muestra positiva y 0 representa una muestra negativa.

Calculemos su precisión, como se muestra en la siguiente tabla:

AP se calcula tomando el promedio solo de las precisiones de las muestras positivas, es decir, AP = (1/1+2/4+3/ 5+ 4/6)/4=0,6917. Si el sistema de recomendación clasifica las muestras para cada usuario en el conjunto de prueba, entonces se calcula el valor AP para cada usuario y luego se promedian los valores AP de todos los usuarios para calcular el valor AP de todos los usuarios. mAP se obtiene promediando los valores AP de todos los usuarios, es decir, mAP es el promedio de la precisión promedio.

Vale la pena señalar que el cálculo de mAP es completamente diferente del cálculo de la curva P-R y la curva ROC, porque mAP necesita ordenar las muestras de cada usuario por usuario, mientras que la curva P-R y la curva ROC son todas las muestras de prueba están clasificadas.

Los métodos de cálculo de varios indicadores se demostrarán a continuación con un ejemplo clásico de clasificación de la reinita.

Importe datos de Yingge, use la prueba Holdout y divida aleatoriamente el conjunto de datos en un conjunto de entrenamiento y un conjunto de prueba:

Cree un clasificador SVM lineal y calcule la distancia desde los datos de prueba hasta la distancia del plano de decisión y predecir los datos de la prueba:

Calcular precisión:

Calcular precisión:

Calcular recuperación:

Calcular Función:

Calcular la tasa de recuperación.

Calcular la puntuación F1:

Calcular la precisión AP promedio:

Calcular la matriz de confusión:

Dibujar la curva P-R y calcular el AUC:

Trace la curva ROC y calcule el AUC:

No importa qué tan bien la evaluación fuera de línea simule el entorno en línea, no puede reproducir completamente todas las variables en línea. Para casi todas las empresas de Internet, las pruebas A/B en línea son el principal método de prueba para validar la eficacia de nuevos módulos, funciones y productos.

En la figura anterior, los usuarios se dividen aleatoriamente en dos grupos. El naranja y el verde representan las variables controladas, y la tasa de conversión está en el extremo derecho. De esta manera puede ver el impacto general de las variables individuales en su sistema.

En comparación con la evaluación fuera de línea, las pruebas A/B en línea son insustituibles por las siguientes tres razones:

En términos generales, las pruebas A/B son la última prueba antes de que el modelo esté en línea. el modelo que pase las pruebas A/B atenderá directamente a los usuarios en línea y logrará los objetivos comerciales de la empresa. Por lo tanto, las métricas de las pruebas A/B están alineadas con las métricas centrales de su negocio en línea.

La siguiente tabla enumera los principales indicadores de evaluación de las pruebas A/B online de modelos de recomendación de comercio electrónico, modelos de recomendación de noticias y modelos de recomendación de vídeos:

Indicadores y líneas de A/ online Pruebas B Los indicadores evaluados a continuación son muy diferentes. La evaluación fuera de línea no tiene las condiciones para calcular directamente los indicadores comerciales centrales, por lo que lo mejor es elegir indicadores relacionados con el modelo que estén sesgados hacia la evaluación técnica. Pero a nivel empresarial, se centra más en métricas centrales que impulsan el desarrollo empresarial. Por lo tanto, cuando existe un entorno de prueba en línea, es necesario utilizar pruebas A/B para verificar el efecto de mejora del modelo en los indicadores comerciales centrales. En este sentido, el papel del testing A/B online no puede ser sustituido por la evaluación offline.