Red de conocimiento informático - Material del sitio web - Cómo utilizar SAS para analizar la relación entre dos variables dependientes y una variable independiente

Cómo utilizar SAS para analizar la relación entre dos variables dependientes y una variable independiente

Análisis de correlación canónica

Descripción general del método en la sección 1

Muchos problemas prácticos requieren el estudio de correlaciones entre dos conjuntos de variables. Por ejemplo, estudiar la correlación entre diversos síntomas clínicos (X1,…,Xp) y diversas enfermedades (Y1,…,Yq) estudiar los principales indicadores de calidad de las materias primas (X1,…,Xp) y sus correspondientes productos (Y1, …,Yq ); estudiar la correlación entre un conjunto de indicadores (X1,...,Xp) del estado nutricional de los residentes y otro conjunto de indicadores (Y1,...,Yq) del estado de salud, etc. Cuando p = q = 1, es un problema de análisis de correlación simple entre dos variables; cuando p > 1, q = 1, es un problema de análisis de correlación multivariante entre una variable dependiente y múltiples variables independientes cuando p y q son ambas; mayor que 1, el estudio de la correlación entre dos grupos de variables se denomina análisis de correlación canónica.

Utilizando la idea de componentes principales, la correlación entre múltiples variables se puede convertir en correlación entre dos variables. La inflación consiste en encontrar los coeficientes del grupo A = (A1,...,ap)' y B = (B1,...,bq)', lo que da la máxima correlación posible entre las nuevas variables y

ellos Coeficiente, (V1, W1) es un par de variables relacionadas típicas, y el coeficiente de correlación r (V1, W1) entre ellas se abrevia como r 1 de manera similar, el segundo, tercer,... y k-ésimo par típico; se pueden obtener Variables relevantes y sus correspondientes coeficientes de correlación r2,...,rk. La información relevante contenida en cada par de variables relacionadas típicas no se superpone entre sí y cumple con los siguientes requisitos:

②; y Wi La media es 0 y la varianza es 1.

Después de encontrar los pares típicos y los coeficientes de correlación típicos, conservar los pares típicos que corresponden significativamente a los coeficientes de correlación típicos y dar explicaciones razonables es la clave para la calidad del análisis de correlación canónica.

Parte 2: Proceso CANCORR para implementar el análisis de correlación canónica

[Ejemplo 6.6.1] Una facultad de medicina estudió la curva MEFV (flujo espiratorio máximo-volumen) y midió 103 curvas MEFV. datos de un varón normal de entre 50 y 79 años. Aquí se seleccionan seis indicadores y se dividen en dos grupos: un grupo son dos (p=2) indicadores que reflejan la capacidad vital forzada-X655. En otro grupo, hay cuatro indicadores (q=4) que reflejan el flujo espiratorio: Y1 (flujo espiratorio medio máximo (L/S)), Y2 (flujo espiratorio tardío forzado (L/S)), Y3 (el caudal máximo cuando el volumen espiratorio es 50 (L/S)) e Y4 (el volumen espiratorio es 75). Intente realizar un análisis de correlación canónica en estos dos conjuntos de indicadores en la curva MEFV.

Ver [D6P15. PRG] Para una matriz de correlación compuesta por seis indicadores, donde el orden de filas y columnas de los indicadores es X1, X2, Y1 a Y4, por ejemplo, el coeficiente de correlación simple de X1 e Y4 es 0,3019.

[Programa SAS]──[D6P15. PRG]

Datos FGH (tipo = CORR);

INPUT_NAME_$1-2(x 1 X2 y 1-Y4)(8.

);

_ TYPE _ = 'CORR';

Tarjeta;

x 1 1,0 0,8491 0,5106 0,2497 0,5285 0,3019

X2 0,8491 .1.0 0.8062 0.5438 0.7887 0.6064

y 1 0.5106 0.8062 1.0 0.7833 0.9284 0.8364

y2 0.2497 0.5438 0.7833 1.0 0.6457 0 . 9051

y3 0,5285 0,7887 0,9284 0,6457 1,0 0.7079

y4 0.3019 0.6064 0.8364 0.9051 0.7079 1.0

PROC puede corregir EDF = 102;

VAR x 1 X2 con y 1-Y4;

[Instrucciones de modificación del programa] Utilice TYPE=CORR después del nombre del conjunto de datos FGH para indicar que el tipo de datos es una matriz de correlación, no datos originales. " _ INPUT _ contentrdquo Lea el nombre de la variable a la izquierda, "1-2" significa que los caracteres del nombre de la variable se encuentran en las columnas 1 y 2, "(X1 X2 Y1-Y4)" significa el nombre de la variable correspondiente a los datos en cada columna, "(8. )" significa que el ancho de los datos leídos es de 8 columnas (nota:.

La opción EDF=N-1 proporciona un valor de referencia para calcular el grado de libertad del error para el análisis de correlación típico, porque no existe una opción adecuada para enviar con precisión el contenido de muestra N de los datos originales. Si ignora esta opción, no es apropiado utilizar el valor predeterminado N = 10000 como contenido de muestra para participar en cálculos relacionados. y pruebas estadísticas

Si la entrada son datos originales El programa se puede reescribir de la siguiente forma:

Datos FGH;

Entrada x 1 /p. >

....(Nota: Hay N-1 filas de datos en los puntos suspensivos)

PROC CANCORR

VAR x 1 X2; use y 1-Y4; En ejecución;

[Resultados de salida y descripción] Análisis de correlación canónica

Ajustado aproximadamente al cuadrado

Estándar

Error de correlación Correlación

1 0.873549 0.869170 0.023458 0.763089

2 0.286114 0.256837 0.090909 0.081861

El coeficiente de correlación canónico entre el primer par de mangas (V1, W1) r1=0.873549, la corrección el valor es 0,869170, la desviación estándar es 0,023458 y el nivel del coeficiente de correlación canónico es 0,763089. La segunda fila es el resultado de la correlación del segundo par de cantidades de manga (V2, W2)

INV(E)*H. Los valores propios de 0.0892 .0.0269 1.0000

Estos son los dos valores propios correspondientes a R2/(1-R2), que son 3.2210 y R2 es el valor promedio del coeficiente de correlación típico.

Prueba H0: correlación canónica actual

La fila y todas las filas posteriores son cero

Posibilidad

La relación es aproximadamente F Número DF y DF Pr gtF

1 0,21751744 27,7454 8 194 0,0001

2 0,91813855 2,9126 3 98 0,0382