Funciones de pérdida y robustez
La función de pérdida se utiliza para estimar el grado de inconsistencia entre el valor predicho del modelo f(x) y el valor verdadero Y. Es una función de valor real no negativa, generalmente representada por L(Y ,f(x)). Cuanto menor sea la función de pérdida, más robusto será el modelo.
Aunque la función de pérdida nos permite ver las fortalezas y debilidades del modelo y nos proporciona direcciones de optimización, es importante saber que no existe una única función de pérdida que funcione para todos los modelos. La elección de la función de pérdida depende de muchos aspectos, como la cantidad de parámetros, valores atípicos, algoritmo de aprendizaje automático, eficiencia del descenso de gradiente, facilidad para encontrar derivadas y confianza en las predicciones.
Debido a las diferentes tareas de aprendizaje automático, las funciones de pérdida generalmente se dividen en clasificación y regresión predicen un resultado numérico, mientras que la clasificación proporciona una etiqueta.
Una pérdida 0-1 es 1 si el valor predicho y el valor objetivo no son iguales, y 0 en caso contrario:
Las máquinas perceptivas utilizan este tipo de función de pérdida. Sin embargo, dado que la condición de igualdad es demasiado estricta, podemos relajar la condición, es decir, se considera igual cuando se satisface |Y?f(X)| La función de pérdida de la regresión logística es una función de pérdida logarítmica. En la derivación de la regresión logística, se supone que la muestra obedece a la distribución de Bernoulli (0-1) y luego a la función de probabilidad que satisface la. Se encuentra la distribución y luego Use logaritmos para encontrar valores extremos. La regresión logística no busca el valor máximo de la función de probabilidad logarítmica, sino que toma el valor extremo como idea y luego deriva su función de riesgo para minimizar la función de probabilidad negativa. En términos de función de pérdida, se convierte en función de pérdida logarítmica. La forma estándar de la función de pérdida: En la estimación de máxima verosimilitud, el logaritmo suele ir seguido primero de la derivada y luego se encuentran los puntos extremos, lo que facilita el cálculo de la estimación de máxima verosimilitud. La función de pérdida L(Y,P(Y|X)) se refiere a la muestra X que maximiza la probabilidad P(Y| Valores de parámetros) El método de mínimos cuadrados es un método de regresión lineal que transforma la regresión problema en un problema de optimización convexa. El principio básico del método de mínimos cuadrados es que la curva que mejor se ajusta debe minimizar la suma de las distancias desde todos los puntos a la línea de regresión. La métrica de distancia suele utilizar la distancia euclidiana. La función de pérdida para pérdida al cuadrado es: AdaBoost utiliza una función de pérdida exponencial como función de pérdida. La forma estándar de la función de pérdida exponencial es: La función de pérdida de bisagra se utiliza para la clasificación de margen máximo, la más representativa de las cuales es la máquina de vectores de soporte (SVM). La forma estándar de la función de bisagra es: donde t es el valor objetivo (-1 o +1) e y es el valor predicho generado por el clasificador, no directamente el etiqueta de clase. El significado es: cuando los signos de tey son iguales (lo que indica que y se predice correctamente) y |y ≥ 1, la pérdida de bisagra es 0; cuando los signos de tey son opuestos, la función de pérdida de bisagra se convierte en; lineal a medida que y aumenta. En la máquina de vectores de soporte, la función de optimización del SVM original es la siguiente: Transforme el término de restricción en: Entonces la función de pérdida puede ser escrito además como: p> Por lo tanto, la función de pérdida de SVM puede verse como la suma de la regularización L2 y la pérdida de bisagra. El error absoluto medio (MAE) es una función de pérdida de regresión de uso común. Es la suma de los valores absolutos de la diferencia entre el valor objetivo y el valor predicho. error del valor predicho, independientemente de la dirección del error (Nota: La desviación media MBE es el error considerando la dirección, es decir, la suma de los residuos), que va de 0 a ∞, y su fórmula de cálculo es la siguiente: El error cuadrático medio (MSE) es la función de pérdida de regresión. El error más utilizado en , es la suma de los cuadrados de la diferencia entre el valor predicho y el valor objetivo, y su fórmula de cálculo es la siguiente. siguiente: La siguiente figura muestra la distribución de la curva del valor del error cuadrático medio, donde el valor mínimo es el valor objetivo Valor previsto para la ubicación. Podemos ver que a medida que aumenta el error, la función de pérdida aumenta cada vez más rápido. En comparación con la pérdida cuadrada, la pérdida de Huber es menos sensible a los valores atípicos pero también conserva las propiedades microscópicas. Se basa en el error absoluto, pero cuando el error es menor, se convierte en error al cuadrado. Podemos ajustar el umbral de este error usando el hiperparámetro δ. Cuando δ tiende a 0, degenera en MAE; cuando δ tiende a infinito, degenera en MSE La expresión para una función continuamente diferenciable es la siguiente: La elección de δ es muy importante para la pérdida de Huber. Determina cómo se comporta el modelo cuando trata con valores atípicos. Cuando el residual es mayor que δ, se usa la pérdida L1; cuando el residual es muy pequeño, se usa la pérdida L2 más apropiada para la optimización. La función de pérdida de Huber supera las deficiencias de MAE y MSE. No solo puede mantener la derivada continua de la función de pérdida, sino que también utiliza la disminución del gradiente de MSE con el error para obtener un valor mínimo más preciso. , y tiene una mejor detección de valores atípicos de robustez. La función de pérdida Log-Cosh es una función de pérdida más suave que L2. Utiliza coseno hiperbólico para calcular el error de predicción: Su ventaja es que para errores extremadamente pequeños, log(cosh. (x)) es muy similar a (x**2)/2, y para errores mayores, es muy similar a abs(x)-log2. Esto significa que la función de pérdida logarítmica de cosh puede tener todas las ventajas de MSE sin verse demasiado afectada por valores atípicos. Tiene todas las ventajas de Huber y se puede diferenciar cuadráticamente en cada punto. La diferenciabilidad cuadrática es necesaria en muchos modelos de aprendizaje automático, como el modelo de optimización XGBoost (matriz de Hesse) que utiliza el método de Newton. En la mayoría de los problemas de predicción del mundo real, tendemos a esperar incertidumbre en los resultados de la predicción. Al predecir intervalos numéricos en lugar de puntos numéricos específicos, esto es fundamental para la toma de decisiones en procesos comerciales específicos. La función de pérdida de cuantificación es una herramienta especialmente útil cuando necesitamos predecir un rango numérico de resultados. Normalmente, utilizamos la regresión de mínimos cuadrados para predecir intervalos numéricos, asumiendo que la varianza de los residuos numéricos es constante. Pero para los modelos lineales, esto a menudo no se cumple. En este momento, la función de pérdida de magnitud y la regresión de magnitud pueden salvar el modelo de regresión. Es muy sensible a los intervalos de predicción y mantiene un buen rendimiento incluso si los residuos se distribuyen de manera desigual. Veamos el rendimiento de la regresión de pérdidas cuánticas bajo datos heteroscedásticos a través de dos ejemplos. La figura anterior muestra dos distribuciones de datos diferentes. La figura de la izquierda muestra el caso en el que la varianza residual es constante y la figura de la derecha muestra el caso en el que la varianza residual cambia. Estimamos ambos casos utilizando el método de mínimos cuadrados normales, donde la línea naranja es el resultado del modelado. Sin embargo, no podemos obtener el rango de valores, que es donde entra en juego la función de pérdida cuantificada. Las líneas discontinuas superior e inferior en la figura anterior son intervalos numéricos basados en las pérdidas cuantificadas de 0,05 y 0,95, a partir de las cuales se puede ver claramente el rango de valores predicho después del modelado. El objetivo de la regresión cuantitativa es estimar el valor cuantitativo condicional de un valor predicho determinado. De hecho, la regresión cuantitativa es una extensión del error absoluto medio. La elección de la magnitud se basa en si queremos dar más valor a los errores positivos o negativos. La función de pérdida penaliza el sobreajuste y el desajuste de manera diferente dependiendo de la magnitud γ. Por ejemplo, elegir que γ sea 0,25 significa que penalizará un mayor sobreajuste e intentará mantener las predicciones justo por debajo de la mediana. El valor de γ suele estar entre 0 y 1. La figura muestra la función de pérdida para diferentes cuartiles y está claro que existe un desequilibrio entre los errores positivos y negativos. Artículo de referencia: /p/b715888f079b /s?id=1603857666277651546&wfr=spider&for=pc /weixin_37933986/article/ detalles/68488339