Notas sobre modelos matemáticos: análisis de correlación de grises de modelos de evaluación
Este artículo presentará brevemente el análisis de correlación gris. El análisis de correlación de Gray tiene principalmente dos funciones. Una es realizar un análisis del sistema y determinar la importancia de los factores que afectan el desarrollo del sistema. La segunda función es utilizarlo para evaluar problemas de manera integral y clasificar los pros y los contras de los objetos o programas de investigación.
Sin embargo, aquí solo puedo presentarlos brevemente. Es posible que los principios más profundos requieran un estudio especial antes de poder expresarlos con claridad. Sin embargo, no es difícil aplicarlo si no comprende claramente algunos de los principios, no debería afectar su uso. Simplemente trátelo como si estuviera aprendiendo un nuevo método.
De hecho, cuanto más aprende, como el análisis de regresión múltiple, la investigación de operaciones, el análisis de series de tiempo, varios modelos de pronóstico, la clasificación de agrupaciones, etc., implican muchas derivaciones matemáticas difíciles. Incluso si entiendo y aprendo algo, todavía me lleva más tiempo expresarlo de una manera relativamente simple y fácil de entender. Por lo tanto, cuando escribo notas de estudio, sólo puedo explicar brevemente los principios y luego hablar sobre aplicaciones infalibles. Cuando lo entienda más profundamente, volveré atrás y revisaré el artículo que no sea lo suficientemente claro.
Bien, volvamos al tema, hablemos del análisis de correlación gris ~
“En el proceso de desarrollo del sistema, si las tendencias cambiantes de dos factores son consistentes, es decir Si el grado de cambio sincrónico es alto, se puede decir que el grado de correlación entre los dos es alto; por el contrario, es bajo. Por lo tanto, el método de análisis de correlación gris se basa en el grado. de similitud o disimilitud en las tendencias de desarrollo entre factores, es decir, el "grado de correlación gris", como una medida de la relación entre factores "
El contenido anterior está tomado de Baidu. , que probablemente sea el caso. El objeto de investigación del análisis relacional gris suele ser un sistema. El desarrollo de un sistema se ve afectado por varios factores. A menudo queremos saber, entre los muchos factores que influyen, cuáles son los factores principales y cuáles son los factores secundarios; cuáles tienen un impacto grande y cuáles tienen un impacto pequeño, cuáles tienen un efecto promotor y cuáles tienen un impacto pequeño; un efecto inhibidor, etc.
En estadística matemática, se suelen utilizar análisis de regresión, análisis de varianza, análisis de componentes principales, etc. para explorar esta cuestión. Sin embargo, los métodos anteriores tienen algunas deficiencias comunes. Por ejemplo, todos estos métodos requieren una gran cantidad de datos. Si los datos son pequeños, los resultados no serán muy significativos, a veces será necesario que las muestras obedezcan a una distribución especial o los resultados cuantitativos no coincidirán con el análisis cualitativo. El análisis relacional gris puede abordar mejor este problema.
El análisis de correlación de Gray no tiene requisitos sobre el tamaño de la muestra y si la muestra es regular (por supuesto, el tamaño de la muestra no puede ser demasiado pequeño, ¿qué es el análisis con solo dos o tres muestras), el análisis cuantitativo Los resultados son básicamente los mismos que los del análisis cualitativo consistente. La idea básica del análisis de correlación de grises es juzgar si la conexión es cercana en función de la similitud de las formas geométricas de las curvas de secuencia. Cuanto más cercanas estén las formas de las curvas, mayor será la correlación entre las secuencias correspondientes y viceversa.
Bueno, una traducción simple del principio anterior es estudiar la similitud geométrica de curvas compuestas por dos o más secuencias (las secuencias pueden entenderse como factores o indicadores en el sistema). Cuanto más similares son, más estrechamente relacionados están sus cambios, es decir, el grado de correlación es alto. Por lo tanto, este método casi estudia la correlación desde la perspectiva de datos puros. Si dos indicadores que no tienen relación tienen una forma de curva muy similar, entonces el análisis de correlación gris considerará que los dos están altamente correlacionados. Por supuesto, este es sólo un ejemplo extremo. Para datos o sistemas generales, tiene sentido utilizar formas de curvas para medir la correlación.
Primero introduzcamos la primera aplicación, que también es su aplicación básica, el análisis de sistemas. El contenido principal de su análisis es clasificar los "factores que afectan el desarrollo del sistema" en términos de importancia o grado de influencia. En el análisis de correlación gris, se trata de dar la clasificación de la correlación entre cada factor y el sistema general. Cuanto mayor sea la correlación, mayor será el impacto de los factores correspondientes en el desarrollo del sistema. En cuanto al grado de correlación, es la aproximación de la forma de la curva mencionada anteriormente. Bueno, de hecho, el análisis relacional gris todavía se puede entender vagamente, pero se siente un poco poco confiable hhh
Pongamos un ejemplo para explicar el método de aplicar el análisis relacional gris. (El principio ya ha sido explicado)
La siguiente tabla muestra los datos estadísticos del PIB de una determinada región (unidad: millones de yuanes). Pregunte qué tipo de PIB en la región de 2000 a 2005. tiene el mayor impacto en el PIB total.
No, este es un problema típico de análisis de sistemas para descubrir el factor que tiene mayor impacto en el desarrollo del PIB. Entonces, ¿qué debemos hacer? Piénselo, el principio del análisis de correlación de grises es comparar la similitud de las formas geométricas de las curvas de secuencia, por lo que, por supuesto, primero debe dibujar las curvas de secuencia. Bueno, el primer paso es dibujar la curva de secuencia.
Cabe señalar aquí que si queremos estudiar la correlación de varios factores en el sistema general, necesitamos encontrar un indicador que pueda representar el desarrollo general del sistema, aquí está el PIB. De manera similar, si queremos reflejar el grado de desarrollo educativo, podemos usar el promedio de años de educación recibidos por la gente; si queremos reflejar la situación de seguridad pública, podemos usar la tasa de incidencia de casos criminales; Si queremos reflejar el nivel de salud nacional, podemos usar Se puede expresar por el número de registros hospitalarios. Pase lo que pase, siempre es necesario encontrar un indicador que caracterice el desarrollo general del sistema.
Aparte de todo lo demás, sólo mirando la forma de la curva, siento que la industria primaria tiene el menor impacto en el PIB. El PIB sigue aumentando, mientras que la forma de la curva de la industria primaria es casi plana. Si se analiza únicamente la similitud, parece que la segunda industria, es decir, la curva gris, es más similar a la curva del PIB. Sin embargo, la imagen se dibuja sólo para dar una sensación y un análisis intuitivos. Aún es necesario calcular el grado aproximado de la forma de la curva.
El segundo paso es determinar la secuencia de análisis. La secuencia de análisis se divide en dos categorías. Una se llama secuencia principal, que es la secuencia de datos que refleja las características generales de comportamiento o desarrollo del sistema. Puede entenderse como la variable dependiente en el análisis de regresión, aquí es el PIB. columna. El otro tipo se llama subsecuencia, que es una secuencia de datos compuesta de factores que afectan el desarrollo del sistema. Puede entenderse como la variable independiente en el análisis de regresión. Aquí están el valor del producto bruto de la industria primaria, la industria secundaria y la. datos de la industria terciaria.
El tercer paso es preprocesar los datos. Hemos hablado mucho sobre preprocesamiento, como reenvío, estandarización, normalización, etc. El propósito del preprocesamiento aquí es eliminar la influencia de las dimensiones y reducir el rango de datos para facilitar el cálculo. La estandarización de datos a menudo hace esto. Existen muchos métodos para la estandarización de datos. Por ejemplo, la estandarización es los datos originales menos la media dividida por la varianza. Este método se usa a menudo para variables aleatorias. Otro ejemplo es la estandarización. Ambos métodos han sido mencionados antes.
Aquí, el método de normalización que utilizamos es dividir cada elemento por la media del indicador correspondiente, que es . Bueno, mostremos los datos procesados. Simplemente use Excel para procesarlo, lo cual es más conveniente.
El cuarto paso es calcular el grado de correlación entre cada elemento de la subsecuencia procesada y el elemento correspondiente de la secuencia principal. Sea la secuencia principal y las subsecuencias, ,. Primero calculamos la diferencia mínima entre las secuencias de madre e hijo, y luego calculamos la diferencia máxima entre las secuencias de madre e hijo. El cálculo es como se muestra en la siguiente tabla.
Bueno, puedes encontrar que es el elemento más pequeño en la tabla anterior y es el elemento más grande en la tabla anterior. Luego podemos calcular la correlación entre cada elemento de la subsecuencia y el elemento correspondiente de la secuencia principal.
En el análisis de correlación de grises, defina , donde está el coeficiente de resolución, generalmente ubicado entre , y a menudo se toma como . ¿En cuanto a por qué se utiliza dicha fórmula para definir la correlación entre un elemento de la subsecuencia y el elemento correspondiente de la secuencia principal? No lo sé... Bueno, lo comprobaré yo mismo. Si lo sabes, déjame un mensaje y dímelo, ¡gracias!
El quinto paso es calcular cada secuencia, es decir, el grado de correlación entre el indicador y el sistema general. Lo definimos y lo utilizamos para expresar la correlación entre un determinado indicador y el desarrollo general del sistema.
Bueno, en realidad es el cuarto paso. Se encuentra la correlación entre cada elemento dentro del indicador y el elemento correspondiente de la secuencia principal. Al promediarlos, se puede considerar como la correlación entre el indicador y. el sistema general. Si puede aceptar la fórmula de cálculo de correlación anterior, no debería ser demasiado difícil aceptar este valor de correlación medio.
La imagen de arriba es el resultado final del cálculo de esta pregunta. El cálculo demuestra que cuando el coeficiente de resolución es 0,5, la industria terciaria tiene el mayor impacto en el PIB. No parece ser muy consistente con esa imagen... Después de todo, según la sensación intuitiva de la imagen, la forma de la curva de la industria secundaria debería ser la más similar a la forma de la curva del PIB, y el resultado calculado es la industria terciaria. Entonces, intentemos cambiarlo.
Después de todo, la industria terciaria tiene el mayor impacto en el PIB. Pero nuevamente, en el uso real, es el más utilizado.
Si se quiere explicar con contundencia, es probable que la tasa de crecimiento del PIB fluctúe. La pendiente de cada polilínea entre 2002 y 2005 es diferente, mientras que la industria secundaria básicamente tiene una pendiente diferente entre 2002 y 2005. . Va en línea recta. En comparación, los cambios en el crecimiento de la industria terciaria se parecen más a cambios en el PIB... Bueno, sólo tengo que explicarlo.
La imagen de arriba muestra el aumento en. cada año... Bueno, parece que el gris y el azul se parecen más, pero mirando el incremento de 2003 a 2005, es decir, los cuatro años de 2002 a 2005, el crecimiento de la industria terciaria y el PIB son más similares. La industria secundaria es relativamente similar sólo durante uno o dos años, por lo que, en general, la industria terciaria puede tener un mayor impacto en el PIB.
Pues se acabó la explicación forzada.
Finalmente, hay dos cuestiones relativas al análisis de sistemas.
Bueno, eso es todo por el análisis del sistema.
El núcleo del análisis de correlación gris para una evaluación integral es determinar el peso de cada indicador a través de la correlación de indicadores y luego la suma y puntuación ponderadas.
Aún estos veinte ríos. Para evaluar la calidad del agua, ¿cómo utilizamos el análisis de correlación de grises?
El primer paso es reenviar todos los indicadores. Usted sabe qué es el procesamiento directo, es decir, convertir todos los indicadores muy pequeños, intermedios y de intervalo en indicadores extremadamente grandes. Es decir, cuanto mayor sea el valor de los datos, mayor será la puntuación final.
El segundo paso es estandarizar la matriz reenviada. La estandarización aquí es la misma que la estandarización del análisis del sistema anterior. Es decir, cada elemento se divide por el valor medio del indicador correspondiente, para reducir el rango de los datos y eliminar la influencia dimensional. Marque la matriz que se ha procesado en los dos pasos anteriores como
El tercer paso es tomar el valor máximo de cada fila de la matriz después de reenviarla y preprocesarla como secuencia madre. Bueno, esto es a lo que debe prestar atención cuando se utiliza el análisis relacional gris para problemas de evaluación integral, es decir, construir artificialmente dicha secuencia principal.
El cuarto paso es calcular el grado de correlación de grises entre cada indicador y la secuencia principal según el método mencionado anteriormente, registrado como .
El quinto paso es calcular el peso de cada indicador. El peso de cada indicador. Es decir, la proporción de correlación con respecto a la suma de la correlación general.
En el sexto paso encontramos la puntuación de cada objeto de evaluación. Para el décimo objeto de evaluación, su puntuación es . Aquí, es la matriz reenviada y estandarizada mencionada anteriormente. Cada indicador es un indicador muy grande. Cuanto mayor sea el valor, mayor debe ser la puntuación y se elimina el impacto de la dimensión. Por lo tanto, utilizamos directamente los elementos como puntuación de cada objeto de evaluación bajo cada indicador y luego realizamos una suma ponderada de las puntuaciones de los indicadores. El peso es el peso que obtuvimos anteriormente usando el grado de correlación de grises. De esta forma calculamos la puntuación final.
El séptimo paso es normalizar las puntuaciones. , de esta manera puedes poner todas las puntuaciones entre 0-1. La ventaja de la normalización es que la puntuación en este momento se puede interpretar como el porcentaje del objeto de investigación correspondiente entre los objetos de investigación generales, es decir, su posición. En los problemas de calidad del agua, es la posición de la calidad del agua de un determinado río entre todos los ríos. Bueno, para usar una expresión más popular, es similar a "tus calificaciones superan el xx por ciento de tus compañeros de clase". Éste es el propósito de la normalización.
La siguiente figura muestra los resultados de la evaluación de la calidad del agua mediante el método TOPSIS y análisis de correlación de grises.
Se puede observar que la clasificación final de los dos métodos es diferente para este problema. El método para seleccionar el primer lugar es diferente y el orden de la parte media también es diferente, pero en general es relativamente similar. hhh, es mejor utilizar otro proceso de jerarquía analítica y promediar las puntuaciones normalizadas obtenidas por los tres métodos como base para la clasificación final. Bueno, mira este modelo, de repente se vuelve complicado.
Bien, eso es todo por este artículo. De hecho, todavía quedan algunas cuestiones confusas que siguen sin resolver.
Los dos últimos parecen explicarse con fuerza, porque tratamos la matriz reenviada y estandarizada como una matriz fraccionaria, por lo que tomamos el valor máximo de cada fila para construir la secuencia de puntuación óptima del sistema. equivale a un desarrollo del sistema.
Después se calcula la correlación observando el grado de influencia del indicador sobre la secuencia óptima del sistema. Cuanto mayor sea la influencia, mayor peso le daremos... Pues explica con contundencia
Hay mucho que puedo compartir sobre el análisis de correlación gris. Si desea seguir comprendiendo, puede leer "La teoría del sistema gris y su aplicación", Liu Sifeng et al. Bueno, los sistemas grises también tienen predicción de sistemas grises, modelos de combinación grises, toma de decisiones grises, evaluación de agrupamiento gris y otras aplicaciones. Puede echarle un vistazo si no tiene nada que hacer.
En los últimos dos días, Zhihu me ha planteado algunas preguntas y respuestas relacionadas con el modelado matemático, una de las cuales es un libro relacionado con el modelado matemático. Busqué la versión electrónica del libro recomendado por la respuesta muy elogiada. Si es necesario, simplemente responda "Libros de modelado matemático" en el fondo de la cuenta pública de WeChat "Soy Chen Xiaobai".
Arriba