Red de conocimiento informático - Conocimiento del nombre de dominio - Métodos de discretización comunes

Métodos de discretización comunes

Existen siete métodos de discretización comunes:

1. Método de discretización equidistante

El método equidistante, también conocido como método de ancho igual, es el más fácil de usar. entender Es decir, los valores de los atributos se dividen en intervalos con el mismo ancho y el número de intervalos está determinado por la situación real.

Por ejemplo, si un atributo tiene un valor entre , y , cada valor de atributo corresponde al valor de atributo en el rango al que pertenece. Este enfoque de intervalos iguales puede mantener mejor la distribubilidad completa de los datos.

2. Discretización de igual frecuencia

Los datos se clasifican según la distribución de frecuencia y luego se discretizan según la frecuencia. La ventaja es que los datos se distribuyen uniformemente, pero así. cambia la distribución original. En resumen, se trata de dividir el intervalo de datos según la distribución de frecuencia de los datos.

3.Discretización del modelo K-means

Algoritmo k-means, también conocido como algoritmo k-means. En el algoritmo k-means, k-means significa k Agrupación de conglomerados se refiere a tomar el valor promedio de los datos que representan cada conglomerado como el centro del conglomerado, o llamado centro de gravedad, es decir, para describir la agrupación.

La idea del algoritmo es aproximadamente la siguiente: primero, se seleccionan aleatoriamente k muestras del conjunto de muestras como centro de agrupación y se mide la distancia entre todas las muestras y los k "centros de agrupación" Se calcula para cada muestra, divídala en el grupo más cercano al "centro del grupo" y, para un nuevo grupo, utilice el centro del grupo como el centro del grupo. Para cada muestra, se divide en el grupo más cercano al "centro del grupo" y, para los grupos nuevos, se calcula el nuevo "centro del grupo" de cada grupo.

4. Discretización cuantitativa

Utilizar cuartiles, quintiles, deciles y otros métodos cuantitativos para la discretización. Por ejemplo, el rango intercuartil es una estadística que mide la dispersión de un conjunto de datos, expresada como IQR. Su valor es la diferencia entre el primer cuartil y el tercer cuartil.

5. Binarización y discretización

Compare los datos con el umbral, establezca los datos mayores que el umbral en un valor fijo (como 1) y establezca los datos menores que el. umbral a otro valor (como 0) y luego obtenga un conjunto de datos binarios con solo dos rangos de valores.

6. Método discreto basado en la segmentación chi-cuadrado

El algoritmo de segmentación trata todo el intervalo de valores de atributos como un valor de atributo discreto y luego divide el intervalo, generalmente en uno En segundo lugar, un intervalo se divide en dos intervalos adyacentes. Cada intervalo corresponde a un valor de atributo discreto y se puede dividir hasta que se cumpla una determinada condición de parada.

Método discreto 7.1R

1R es 1 regla, el nombre completo es 1 regla. Es un árbol de decisión que genera una capa en forma de conjunto de reglas, únicamente. para atributos específicos. 1R es un método sencillo y económico, pero su precisión suele sorprender.