Red de conocimiento informático - Aprendizaje de código fuente - Análisis de datos: preprocesamiento de datos: comprensión de las ventajas y desventajas de los métodos estandarizados (2)

Análisis de datos: preprocesamiento de datos: comprensión de las ventajas y desventajas de los métodos estandarizados (2)

El análisis de datos anterior: preprocesamiento de datos: explicación preliminar de la estandarización (1) es implementar inicialmente el cálculo de varios métodos de estandarización en R. No hay más análisis de las razones de la estandarización. Los dos métodos de estandarización, la estandarización de valores y la estandarización de Zscore, se utilizan para volver a analizar las razones de la estandarización. Para compartir más conocimientos, visite https://zouhua.top/.

En la modelización, es común utilizar múltiples variables como variables independientes para predecir resultados, a menudo usando múltiples unidades y escalas. El uso de valores brutos para construir un modelo o hacer predicciones puede dar como resultado contribuciones inconsistentes de cada variable a los resultados, por lo que a menudo es necesario transformar y estandarizar las variables independientes.

Por ejemplo, si la variable A oscila entre 0 y 1.000.000 y la variable B oscila entre 0 y 100, su contribución a los resultados será diferente antes de la normalización.

Nota: El rango de cada variable es [0, 1]. La desventaja de la normalización extrema es que atrae los datos hacia la media y es insensible a los valores atípicos, mientras que Zscore tiene en cuenta el impacto de los valores extremos (divididos por la desviación estándar).

Las funciones de escala se pueden utilizar para la normalización de Zscore.

Normalmente, los datos están asimétricos (las distribuciones izquierda y derecha están asimétricas y el centro es normal). A menudo se utiliza una transformación log2 para normalizar la distribución.

Recientemente, vi un artículo que normalizaba los datos utilizando la mediana log2transform.

Los valores de intensidad de los datos de espectrometría de masas (proteoma, metaboloma) son enteros y enormes, por lo que log2transform puede reducir el efecto de escala y hacer que la distribución de los datos sea normal.

Luego se realiza la normalización de la mediana para eliminar inconsistencias en la contribución de los datos transformados log2 a las predicciones.

La pregunta es, ¿qué hacer con los valores faltantes?

La pregunta es ¿cómo lidiar con los valores faltantes?