xgboost multicategoría Cómo configurar etiquetas XGBoost ahora se ha convertido en un arma importante para los ingenieros de datos. Es un método muy complejo para procesar diversos datos generales. Construir un modelo usando XGBoost es muy fácil, pero mejorar el rendimiento del modelo es difícil (al menos a mí me resulta muy confuso). -Qué parámetros deben ajustarse y qué valores deben ajustarse para obtener resultados de salida ideales. Este artículo es adecuado para principiantes en XGBoost. Este artículo presenta principalmente mis habilidades de ajuste de parámetros y conocimientos relacionados con XGboost, así como mi práctica en Python. conjuntos de datos. Necesito entender XGBoost (eXtreme Gradient Boosting) El método de aumento de gradiente es una versión optimizada del método de aumento de gradiente. Un agradecimiento especial a: Gracias al Sr. Sudalai Rajkumar (también conocido como SRK) por su apoyo. Actualmente ocupa el segundo lugar en AV Rank. Ayuda. No hay ayuda de los artículos. Solo puedo dar me gusta a algunos científicos de datos como guía. Tabla de contenido I. Ventajas de XGBoost II. Ventajas del paso de regularización de XGBoost, que reduce la ayuda del procesamiento paralelo. La implementación de XGBoost es un salto en velocidad en comparación con GBM. Como todos sabemos, Boosting se considera un procesamiento secuencial y se puede paralelizar. La construcción de cada árbol de clases depende del árbol anterior. el árbol. Espero poder entender el significado de esta oración. XGBoost admite la implementación de Hadoop 3. ¿Permite XGBoost a los usuarios definir criterios de evaluación de objetivos de optimización personalizados? XGBoost permite a los usuarios definir objetivos de optimización personalizados y criterios de evaluación, agregar nuevas dimensiones al modelo y limitar el procesamiento a cualquier restricción. 4. Procesamiento de valores faltantes XGBoost tiene reglas de procesamiento de valores faltantes integradas. Los usuarios deben proporcionar el mismo valor para el valor faltante que el parámetro que se pasará. Manejar los valores faltantes en el caso de valores. 5. Pode el agrietamiento con una pérdida negativa de GBM para detener el agrietamiento del GBM, de modo que el codicioso cálculo de grietas rectas XGBoost real se realice y se pode a la profundidad especificada (máx_profundidad). XGBoost continúa resquebrajándose y encuentra dos grietas, luego las fusiona, dejando dos grietas. Detectar las limitaciones de XGBoost Ya basado en el modelo Continuar XGBoost round-robin Continuar entrenando las características de algunas aplicaciones específicas Gran ventaja sklearnGBM implementa dos puntos de conteo de la función Creo que XGBoost tiene un concepto de punto de función poderoso Preste atención a algunos puntos Resumí Ya que quiero afrontarlo. Los comentarios me indicaron que actualizara la lista de parámetros XGBoost.
Parámetros del objetivo del ejercicio: controla el rendimiento del objetivo de entrenamiento Explico los conceptos básicos de la analogía con GBM Parámetros genéricos Algunos parámetros se utilizan para controlar las funciones macro de XGBoost I. Booster [gbtree predeterminado] Selecciona cada iteración del modelo Dos opciones: gbtree: modelo basado en árbol gbliner: modelo lineal ii. valor del parámetro silencioso [predeterminado 0] un modo silencioso para comenzar a ingresar cualquier información Los parámetros generales mantienen el valor predeterminado 0 puede ayudarme a comprender mejor el modelo iii.nthread [el valor predeterminado puede ser el número de subprocesos] Uso Para los parámetros de control de subprocesos, se debe ingresar el número de núcleos del sistema. Se espera utilizar los parámetros de entrada de todos los núcleos de la CPU para contar los dos parámetros de autoverificación de XGBoost. utilizado para la administración, echemos un vistazo a los parámetros del refuerzo. Parámetros del refuerzo Aunque hay dos refuerzos para elegir, el refuerzo de árbol que introduje funciona mucho mejor que el refuerzo lineal, que rara vez es utilizado por el refuerzo lineal a.eta [predeterminado]. 0,3] Parámetro de tasa de aprendizaje de GBM Similar a reducir el peso de cada paso para mejorar la solidez del modelo. El valor típico es 0,0. Mejorar la robustez del modelo. Valor típico 0.0 1-0.2 2. min_child_weight [valor predeterminado 1] determina el peso del nodo hoja GBM El parámetro min_child_leaf es similar al peso completo del parámetro XGBoost. Se utiliza el número total de parámetros GBM. el valor de ajuste es mayor que el especial local para evitar el aprendizaje del modelo. El valor es demasiado alto, lo que resulta en parámetros insuficientes que deben ajustarse mediante CV 3. max_ Depth [valor predeterminado 0,3] El parámetro de tasa de aprendizaje de GBM es similar al peso del parámetro XGBoost. Parámetro GBM max_profundidad [el valor predeterminado es Lu] El parámetro GBM se utiliza con el mismo valor de profundidad del árbol para evitar Cuanto más especial sea el modelo, más localizado estará para ajustarse a max_profundidad. Esto requiere el uso de la función CV para ajustar. 10 4. max_leaf_nodes El número de nodos u hojas del árbol reemplaza a max_profundidad. El parámetro de definición de profundidad del árbol binario n árbol n de hoja binaria GBM ignora el parámetro de profundidad del parámetro max_profundidad 5. gamma [valor predeterminado 0] El valor de la función de pérdida de grietas de nodos. disminuye solo para los nodos de grietas. La gamma especifica el valor de disminución de la función de pérdida requerida para las grietas de los nodos. Cuanto más conservador es el valor del parámetro, más conservador es el valor del parámetro que debe ajustarse. El parámetro max_delta_step[valor predeterminado 0] limita el paso de cambio de peso de cada árbol. Un valor de parámetro de 0 significa no limitar el valor dado mediante el cálculo de los parámetros más conservadores que deben establecerse para cada categoría. Ayuda a equilibrar la lógica de atribución. El parámetro se usa generalmente para explorar más Lac útil, submuestra [predeterminado 1] El parámetro del modo de parámetro GBMsubsample controla la proporción de muestreo aleatorio en cada árbol. Reduzca el valor del parámetro para que sea más conservador para evitar valores de ajuste que conducirán a un ajuste insuficiente. valores: 0,5-1 Bar, colsample_bytree [predeterminado] El parámetro GBM face max_features es similar al parámetro utilizado para controlar el número de columnas (características por columna) por árbol aleatorio. Valores típicos: 0,5 - 1 9, colsample_bylevel [predeterminado 1. ] se utiliza para controlar el número de columnas por estrato del árbol.