¿En qué encaja Xgboost al resolver problemas de clasificación?
/question/269929168?sort=created
Hablemos primero de la conclusión. Lo que se ajusta es el valor de probabilidad.
XGBoost es una versión mejorada de GBDT. GBDT se utiliza a continuación para explicar qué es cada ronda de iteración cuando se trata de problemas de clasificación.
Tanto XGBoost como GBDT se basan en árboles de regresión CART. Para GBDT, cuando el valor predicho es un valor continuo, se calcula la suma de los cuadrados de la distancia entre el valor predicho y el valor verdadero, y el valor real. El error cuadrático medio (MSE) es la función de pérdida de regresión más utilizada. En este momento, el gradiente negativo resulta ser el residual. Cuando el valor predicho es un valor discreto, o cuando se trata de un problema de clasificación, el ajuste también es un '. "gradiente negativo", pero tiene que dar un giro.
Este paso consiste en convertir el valor predicho y el valor real en la probabilidad de la categoría. El proceso iterativo consiste en mantener la probabilidad predicha cerca de la probabilidad real.
Logloss se utiliza a menudo para evaluar la probabilidad de salida de un clasificador. Logloss cuantifica la precisión de un clasificador penalizando las clasificaciones incorrectas. Minimizar la pérdida de registros es básicamente equivalente a maximizar la precisión del clasificador. Para calcular la pérdida logarítmica, el clasificador debe proporcionar un valor de probabilidad para cada clase a la que pertenece la entrada, no solo la clase más probable.
A continuación se toma una clasificación binaria simple como ejemplo y se selecciona la función de pérdida como logloss:
[Error en la carga de la imagen...(image-e5c779-1587638268216)] p>
Entre ellos:
[Error en la carga de la imagen...(image-9362bd-1587638268216)]
Después de la sustitución, puede obtener:
[Error en la carga de la imagen...(image-822803-1587638268216)]
El gradiente negativo es visible en la siguiente figura:
lt;/noscriptgt
<; p> Se utiliza un conjunto de datos simple para ilustrar el primero. ¿En qué encajan el primer y segundo paso?lt;/noscriptgt;
El valor de Yi es 0, 1, donde 0 y 1 también pueden representar la probabilidad real de que la muestra tome un valor positivo en el primer paso. , todas las muestras no están divididas, es un tocón de árbol, lo que minimiza la función de pérdida, se puede obtener la inicialización:
[Error en la carga de la imagen... (imagen-7c1107-1587638268216)]
= [Error en la carga de la imagen...(image-15b72e-1587638268216)]
=0.088
El primer árbol, cuando m=1, calcula el gradiente negativo [Error en la carga de la imagen ...(image-c6b696 -1587638268216)]
= [Error en la carga de la imagen...(image-ce4b70-1587638268216)]
Disponible:
lt;/noscriptgt;
A continuación, se colocará un árbol con [Error en la carga de la imagen...(image-cace9f-1587638268216)]
como destino.