Red de conocimiento informático - Problemas con los teléfonos móviles - Matriz de confusión en sklearn

Matriz de confusión en sklearn

Matriz de evaluación en salida de sklearn

Resultados de salida

Análisis de resultados

Resultados de salida

Referencia: Basado en Métricas de evaluación de la matriz de confusión

La matriz de confusión en la tarea de reconocimiento se utiliza para evaluar la calidad del algoritmo. La siguiente figura muestra la matriz de confusión para un problema de clasificación binaria:

Términos relacionados:

Precisión: (TP+TN)/(TP+TN+FN+FP)

Tasa de error: (FN+FP)/(TP+TN+FN+FP)

Tasa de error. (FN+FP)/(TP+TN+FN+FP)

Recordar: TP/(TP+FN), entre todas las muestras positivas de GroundTruth, cuántas muestras se identifican como muestras positivas;

p>

Precisión: TP/(TP+FP), entre todas las muestras positivas de GroundTruth, cuántas muestras son realmente positivas;

TPR (TruePositive Rate): TP/(TP+FN) , es decir, la tasa de recuperación real

FAR (tasa de aceptación falsa) o FPR (tasa de falsos positivos): FP/(FP+TN), tasa de aceptación falsa, tasa de falsa alarma, es decir, cuántos terrenos Las muestras realmente negativas se identifican como muestras positivas. fuerte> FRR (tasa de rechazo falso): FN / (TP + FN), tasa de rechazo falso, tasa de rechazo falso, cuántas muestras positivas se identifican como muestras negativas entre todas las muestras reales es igual a 1-Recall

Curva ROC (). Curva característica operativa del receptor):

El resultado del reconocimiento de cada umbral corresponde a un punto (FPR, TPR). Cuando el umbral es el más grande, todas las muestras se reconocen como muestras negativas. correspondiente al punto (0,0) en la esquina superior derecha cuando el valor umbral es el más pequeño, todas las muestras se identifican como muestras positivas, correspondientes al punto (0,0) en la esquina superior derecha; es el más pequeño, todas las muestras se identifican como muestras positivas, correspondientes al punto (1,0) en la esquina superior derecha. Cuando el umbral cambia del máximo al mínimo, todas las muestras se identifican como muestras positivas, correspondientes al punto (1,1) en la esquina superior derecha.

Un buen modelo de clasificación debe ubicarse en el; esquina superior izquierda de la imagen tanto como sea posible, mientras que un modelo de adivinanza aleatoria debe ubicarse en la diagonal principal que conecta los puntos (TPR=0,FPR=0) y (TPR=1,FPR=1);

Esto se puede hacer usando el valor AUC (AreaUnder roc Curve) para medir la calidad del algoritmo: si el modelo es perfecto, su AUG = 1; si el modelo es un modelo de adivinación aleatoria simple, su AUG = 0. 5, si un modelo es mejor que el otro, entonces El área bajo la curva es relativamente grande

ERR (Tasa de error equivalente (ERR)): FAR y FRR son dos parámetros del mismo sistema de algoritmo; , y están colocados en las mismas coordenadas. FAR disminuye a medida que aumenta el umbral y FRR aumenta a medida que aumenta el umbral. Por tanto, deben tener una intersección. Este punto de intersección es el punto donde FAR y FRR son iguales bajo un cierto umbral. El valor de este punto se suele utilizar para medir el rendimiento general del algoritmo. Para obtener un mejor algoritmo de huellas dactilares, bajo el mismo umbral, cuanto más pequeños sean FAR y FRR, mejor.