Red de conocimiento informático - Consumibles informáticos - ¿Cuáles son las funciones de Oob y oob en bosques aleatorios?

¿Cuáles son las funciones de Oob y oob en bosques aleatorios?

En el método de embolsado de bosque aleatorio, se puede encontrar que aproximadamente 1/3 de las muestras en bootstrap no aparecerán en el conjunto de muestras recopiladas por bootstrap al mismo tiempo, por lo que no participan en el establecimiento del árbol de decisión. Estos datos se denominan datos listos para usar y se utilizan para reemplazar el método de estimación del error del conjunto de pruebas y se pueden usar para verificar el modelo.

Primero introduzca el uso de oob, donde (x, y) representa la muestra de entrada y la etiqueta, y g representa el árbol construido.

En la figura anterior, g2, g3 y gt no usan (xN, yN), por lo que g2, g3 y gt pueden usar (xN, yN) como datos de verificación y luego usar datos oob. como entrada y luego introdúzcalo en el modelo. Luego se lleva a cabo la votación y la minoría obedece a la mayoría. De manera similar, existe el mismo cálculo para (x1, y1), (x2, y2), etc. Y finalmente la proporción de muestras con juicios incorrectos se calcula como error oob.

Así que oob se puede utilizar para medir la calidad del modelo.

Al mismo tiempo, también se puede derivar el principio de importancia de las características aleatorias de la producción forestal. Si la característica I es beneficiosa para el modelo, reemplazar la característica I-dimensional con valores aleatorios reducirá el rendimiento del modelo, es decir, aumentará el error oob.