Red de conocimiento informático - Problemas con los teléfonos móviles - ¿Cuáles son las ventajas y desventajas de xgboost?

¿Cuáles son las ventajas y desventajas de xgboost?

Escenarios aplicables a xgboost: problemas de clasificación y regresión. Las ventajas y desventajas son las siguientes:

1) Al buscar el mejor punto de segmentación, considerando que el método codicioso tradicional de enumerar todos los puntos de segmentación posibles para cada característica es demasiado ineficiente, xgboost implementa un algoritmo aproximado. La idea general es enumerar varios candidatos que pueden convertirse en el punto de división según el método del percentil y luego calcular y encontrar el mejor punto de división entre los candidatos de acuerdo con la fórmula para encontrar el punto de división anterior.

2) xgboost considera la situación en la que los datos de entrenamiento son escasos y puede especificar la dirección predeterminada de la rama para valores faltantes o valores específicos, lo que puede mejorar en gran medida la eficiencia del algoritmo. 50 veces.

3) Las columnas de características se ordenan y almacenan en la memoria en forma de bloques, que se pueden reutilizar en iteraciones; aunque las iteraciones del algoritmo de impulso deben ser en serie, cada columna de características se puede procesar en paralelo.

4) El almacenamiento según el método de columna de características puede optimizar la búsqueda del mejor punto de división, pero al calcular los datos de gradiente en filas, provocará un acceso discontinuo a la memoria. provocar pérdida de caché y reducir la eficiencia del algoritmo. El artículo menciona que los datos se pueden recopilar primero en el búfer dentro del hilo y luego calcularlos para mejorar la eficiencia del algoritmo.

5) xgboost también considera cómo usar el disco de manera efectiva cuando la cantidad de datos es relativamente grande y la memoria es insuficiente. Combina principalmente métodos de subprocesos múltiples, compresión de datos y fragmentación para mejorar la eficiencia. el algoritmo tanto como sea posible.