Red de conocimiento informático - Aprendizaje de código fuente - Manejo de valores faltantes en el análisis de datos

Manejo de valores faltantes en el análisis de datos

Los datos faltantes son un problema complejo en muchos campos de investigación para la minería de datos, la existencia de valores faltantes tendrá los siguientes efectos:

1. El sistema perderá mucha información útil

.

2. La incertidumbre manifestada en el sistema se vuelve más obvia y los componentes deterministas contenidos en el sistema se vuelven más difíciles de comprender.

3. Los datos que contienen valores nulos causarán confusión en el proceso de minería , lo que lleva a una salida poco confiable

El algoritmo de minería de datos en sí está más dedicado a evitar el sobreajuste de datos del modelo establecido, y esta característica le dificulta manejar bien datos incompletos a través de su propio algoritmo. Por lo tanto, se necesitan métodos especiales para derivar y completar los valores faltantes para reducir la brecha entre los algoritmos de minería de datos y las aplicaciones prácticas.

1. Paquete de ratones con lista de valores faltantes md.pattern()

2. Exploración gráfica del paquete VIM de valores faltantes

3. Utilice la correlación para explorar valores faltantes

1. Llenado manual

Dado que el propio usuario sigue siendo quien mejor conoce los datos, este método produce la desviación de datos más pequeña y puede ser el más adecuado para completar entre todos los métodos. Sin embargo, en términos generales, este método lleva mucho tiempo y no es factible cuando la cantidad de datos es grande y hay muchos valores nulos.

2. Relleno de valores especiales

Un valor nulo se trata como un valor de atributo especial que es diferente de cualquier otro valor de atributo. Por ejemplo, todos los valores nulos se rellenan con "Desconocido". Esto crea otro concepto interesante que puede provocar un sesgo grave en los datos y, en general, no se recomienda.

3. Llenado promedio

Los atributos de la tabla de información se dividen en atributos numéricos y atributos no numéricos, que se procesan por separado. Si el valor nulo es numérico, el valor del atributo faltante se completará en función del valor promedio del valor del atributo en todos los demás objetos; si el valor nulo no es numérico, entonces se completará el valor promedio del valor del atributo en todos los demás objetos; completarse según principios estadísticos. El valor con mayor aparición (es decir, la mayor frecuencia de aparición) se utiliza para completar el valor del atributo faltante. Otro método similar se llama finalización promedio condicional. En este método, la finalización de los valores de atributos faltantes también se promedia a través de los valores de atributos en otros objetos, pero la diferencia es que el valor utilizado para promediar no se toma de todos los objetos en la tabla de información, sino de los Objetos. con el mismo valor de atributo de decisión. El punto de partida básico de los dos métodos de finalización de datos es el mismo, y ambos completan los valores de atributos faltantes con la máxima probabilidad de valores posibles, pero existen ligeras diferencias en los métodos específicos. En comparación con otros métodos, utiliza la mayor parte de la información de los datos existentes para imputar los valores faltantes.

4. Relleno de tarjeta activa

Para objetos que contienen valores nulos, el método de relleno de tarjeta activa encontrará el objeto más similar en los datos completos y luego utilizará el valor de este objeto similar. valor a completar. Diferentes preguntas pueden elegir diferentes criterios para determinar la similitud. Este método es de concepto simple y utiliza la relación entre datos para realizar una estimación nula. La desventaja de este método es que es difícil determinar el estándar de similitud y es muy subjetivo.

5. Método K del vecino más cercano

Primero, determine las K muestras más cercanas a los datos faltantes según la distancia euclidiana o el análisis de correlación, pondere los valores K y promedie los datos faltantes. Estimaciones de muestra.

El mismo método de interpolación media también es un método de interpolación de valor único, pero la diferencia es que utiliza un modelo de agrupamiento jerárquico para predecir el tipo de variables faltantes y luego usa la media de ese tipo para la interpolación. . Supongamos que X = (X1, X2 ... Xp) es una variable con información completa e Y es una variable con valores faltantes, luego X o su subconjunto se agrupa primero y luego se interpolan las medias de diferentes categorías. Esta interpolación introduce autocorrelación en el modelo, lo que puede crear un obstáculo analítico si las variables explicativas introducidas y Y necesitan analizarse en análisis estadísticos posteriores.

6. Complete todos los valores posibles

Completar todos los valores de atributos posibles de los valores de atributos faltantes puede lograr mejores resultados de parcheo. Sin embargo, cuando la cantidad de datos es grande o faltan muchos valores de atributos, el costo computacional es mayor y hay más escenarios de prueba posibles.

7. Método de integridad combinatoria

Pruebe todos los valores de atributo posibles para el valor de atributo vacante y seleccione el mejor del resultado aproximado del atributo final como valor de atributo de relleno.

Este es un método de llenado de datos con fines de aproximación, que puede obtener buenos resultados aproximados; sin embargo, cuando la cantidad de datos es grande o faltan una gran cantidad de valores de atributos, el costo computacional de este método es alto;

8. Regresión

Con base en el conjunto de datos completo, establece una ecuación de regresión (modelo). Para los objetos que contienen valores nulos, los valores de atributos conocidos se sustituyen en la ecuación para estimar los valores de atributos desconocidos, y la ecuación se completa con esa estimación. Esto puede generar estimaciones sesgadas cuando las variables no están relacionadas linealmente o los predictores están altamente relacionados. correlacionado (este método está disponible en el menú de SPSS)

9. Método de maximización de expectativas

El algoritmo EM es un método iterativo que se utiliza para calcular la máxima probabilidad cuando los datos son iterativos. algoritmo para estimar valores o distribuciones posteriores. Se ejecutan dos pasos alternativamente en cada ciclo de iteración: Paso E (paso de excepción, paso de expectativa), que calcula la expectativa condicional de la función de probabilidad logarítmica correspondiente a los datos completos, dados los datos completos y la estimación del parámetro obtenido en la iteración anterior. Paso M (paso de maximización, paso de maximización), utilizando la función de maximización de probabilidad logarítmica para determinar los valores de los parámetros y utilizarlos para la siguiente iteración. El algoritmo itera entre los pasos E y M hasta la convergencia, que finaliza cuando el cambio de parámetro entre dos iteraciones es menor que un umbral predeterminado. Este método puede quedarse atascado en extremos locales, no converge muy rápidamente y es computacionalmente complejo. (Este método se puede utilizar en el menú de SPSS)

10.1 Principio de interpolación de valores múltiples

La idea de la interpolación de valores múltiples se deriva de la estimación bayesiana, que supone que los valores a interpolar son aleatorios, cuyos valores provienen de valores observados. En la práctica, el valor a interpolar generalmente se estima primero y luego se agregan diferentes ruidos para formar múltiples conjuntos de interpolaciones opcionales. Seleccione la interpolación más adecuada basándose en una determinada base de selección. 2.3 Modelado utilizando datos completados

10.3 Implementación de llenado múltiple en R (basado en el paquete de ratones)

Ejemplo:

11.C4.5 Método

p>

Llenar los valores faltantes se logra encontrando relaciones entre atributos. Busca la correlación máxima entre dos atributos, el que no tiene valores faltantes se llama atributo sustituto y el otro se llama atributo original, y utiliza el atributo sustituto para determinar los valores faltantes en el atributo original. Este enfoque inductivo basado en reglas sólo puede manejar atributos nominales con cardinalidad pequeña.

Con respecto a varios métodos basados ​​en estadísticas, el método de eliminación de tuplas y el método de llenado medio son inferiores al método de llenado de tarjeta caliente, el método de maximización de expectativas y el método de llenado múltiple es uno de los métodos; mejores métodos, pero sigue siendo inferior al método de llenado de tarjetas calientes y al método de maximización de expectativas, el método de maximización de expectativas carece del componente de incertidumbre contenido en el método de llenado múltiple; Vale la pena señalar que estos métodos tratan directamente de la estimación de los parámetros del modelo y no de la predicción de vacantes en sí. Son adecuados para abordar problemas de aprendizaje no supervisado, mientras que el aprendizaje supervisado no lo es. Por ejemplo, puede eliminar objetos que contienen valores nulos para entrenar con el conjunto de datos completo, pero no puede ignorar los objetos que contienen valores nulos al realizar predicciones. Además, C4.5 y el método de relleno Usar todos los valores posibles son más complementarios, mientras que el relleno manual y el relleno de valores especiales generalmente no se recomiendan.

El proceso de llenado de valores solo completa los valores desconocidos en nuestras estimaciones subjetivas, que pueden no ser completamente consistentes con los hechos objetivos. Mientras completamos la información incompleta, cambiamos más o menos la. original Algunos sistemas de información. Además, el llenado incorrecto de valores nulos a menudo genera nuevo ruido en los datos y genera resultados erróneos en la tarea de minería. Por lo tanto, en muchos casos todavía queremos procesar sistemas de información manteniendo la información original sin cambios.

La minería de datos se puede realizar directamente sobre datos que contienen valores nulos. Dichos métodos incluyen redes bayesianas y redes neuronales artificiales.

La red bayesiana es un modelo gráfico que se utiliza para representar la probabilidad de conexión entre variables. Proporciona una forma natural de representar información causal para descubrir relaciones potenciales entre datos. En esta red, los nodos se utilizan para representar variables y los bordes dirigidos representan dependencias entre variables. Las redes bayesianas solo son adecuadas para situaciones en las que se tiene cierto conocimiento del dominio, o al menos una comprensión clara de las dependencias entre variables.

De lo contrario, aprender la estructura de una red bayesiana directamente a partir de los datos no sólo es más complejo (crece exponencialmente con el número de variables), sino que también es más costoso mantener la red y hay más parámetros estimados, lo que traerá muchos beneficios. problemas para el sistema. Una gran variación afecta la precisión de la predicción. Cuando el número de valores faltantes para cualquier objeto es grande, existe el peligro de una explosión exponencial. Las redes neuronales artificiales pueden manejar eficazmente valores nulos, pero es necesario profundizar más la investigación sobre redes neuronales artificiales en esta área. Limitaciones de los métodos de redes neuronales artificiales en aplicaciones de minería de datos.

La mayoría de los métodos estadísticos asumen que los datos de entrada están completos y no contienen valores faltantes, pero la mayoría de los conjuntos de datos de la vida real contienen valores faltantes. El software estadístico como SPSS, R, Python y SAS proporciona algunos métodos predeterminados para manejar los valores faltantes, pero es posible que estos métodos no sean óptimos, por lo que es importante comprender los distintos métodos y sus ramas.

"Análisis estadístico de datos perdidos" de Little y Rubin es un libro clásico en el campo de los valores perdidos y vale la pena leerlo.