Quiero saber algo sobre la covarianza y el coeficiente de correlación, no puedo entender la fórmula de la covarianza.
Si las dos variables aleatorias X e Y son independientes entre sí, entonces E[(X-E(X))(Y-E(Y))] = 0. Por lo tanto, si la expectativa matemática anterior no es cero, entonces X e Y no deben ser independientes entre sí, es decir, existe una cierta relación entre ellos.
Definición
E[(X-E(X))(Y-E(Y))] se llama covarianza de las variables aleatorias X e Y, expresada por COV(X, Y), Es decir, COV(X, Y) = E[(X-E(X))(Y-E(Y))].
La relación entre covarianza y varianza es la siguiente:
D(X Y)=D(X) D(Y) 2COV(X, Y)
D( X-Y)=D(X) D(Y)-2COV(X, Y)
Por lo tanto, COV(X, Y)=E(XY)-E(X)E(Y).
[Editor]
Propiedades de la covarianza
(1) COV (X, Y) = COV (Y, X
< p); > (2) COV (aX, bY) = abCOV (X, Y), (a, b son constantes(3) COV (X1 X2, Y) = COV (X1, Y ) COV(X2,Y).
Se puede ver en la definición de covarianza que COV (X, X) = D (X), COV (Y, Y) = D (Y).
Al ser una cantidad que describe el grado de correlación entre X e Y, la covarianza juega un papel determinado bajo una misma cantidad física, pero las mismas dos cantidades adoptan dimensiones diferentes, por lo que su covarianza numérica muestra una gran diferencia. Para ello se introducen los siguientes conceptos:
Definición
ρXY = COV(X, Y)/√D(X)√D(Y), que se denomina aleatorio. variable X e Y Coeficiente de correlación.
Definición
Si ρXY = 0, entonces se dice que X e Y no están correlacionados.
En otras palabras, la condición necesaria y suficiente para ρXY = 0 es COV(X, Y) = 0, es decir, la incorrelación y la covarianza cero son equivalentes.
Teorema
Supongamos que ρXY es el coeficiente de correlación de las variables aleatorias X e Y, entonces existe
(1)∣ρXY∣≤1;
(2)∣ρXY∣=1 es una condición necesaria y suficiente para P{Y=aX b}=1, (a y b son constantes, a≠0)
Definición p>
Supongamos que X e Y son variables aleatorias. Si E (X^k), k=1, 2, ...., se llama momento origen de k-ésimo orden de X, o simplemente momento de k-ésimo orden.
Si existe E{[X-E(X)]^k}, k=1, 2, ..., se llama k-ésimo momento central de X.
Si existe E(X^kY^l), k, l=1, 2, ..., se denomina momento de origen mixto de k orden l de X e Y.
Si E{[X-E(X)]^k[Y-E(Y)]^l}, k, l=1, 2, ... existe, entonces se llama k l de X e Y momento central de mezcla de orden.
Obviamente, la expectativa matemática E(X) de X es el momento origen de primer orden de X, la varianza D(X) es el momento central de segundo orden de X y la covarianza COV(X , Y) es el momento central de mezcla de segundo orden de .
[Editar este párrafo]
Aplicación de la covarianza en la agricultura
En los experimentos científicos agrícolas, a menudo hay factores de calidad controlables y factores de calidad incontrolables. afectan los resultados experimentales al mismo tiempo, es necesario utilizar el método de procesamiento estadístico de análisis de covarianza para considerar los factores cualitativos y cuantitativos (también llamados covarianza) juntos.
Por ejemplo, queremos estudiar el impacto real de tres fertilizantes en el rendimiento de las manzanas. El "rendimiento básico" de los manzanos en el primer año no es consistente, pero tiene un cierto impacto en los resultados experimentales. . Para eliminar la influencia de este factor es necesario analizar el rendimiento anual de cada manzano en el primer año como covariable para obtener resultados experimentales correctos.
a =
-1 1 2
-2 3 1
4 0 3
para yo =1:tamaño(a,2)
for j=1:tamaño(a,2)
c(i,j)=sum((a(:,i) -media(a(:,i))).*(a(:,j)-media(a(:,j))))/(tamaño(a,1)-1));
fin
fin
c =
10.3333 -4.1667 3.0000
-4.1667 2.3333 -1.5000
3.0000 -1.5000 1.0000
c es la matriz de covarianza obtenida, que se expresa en matlab como una variable en cada columna de la matriz a, correspondiente a cada fila de la muestra. Por lo tanto, hay tres variables de columna en la matriz a, a saber, a(:,1), a(:,2), a(:,3).
En la matriz de covarianza c, cada elemento c(i,j) es la covarianza entre la i-ésima columna y la j-ésima columna. Por ejemplo, c(1,2) = -4,1667 es la covarianza entre la primera y la segunda columna.
Para resolver c(1,2)
c(1,2)=sum((a(:,1)-mean(a(:,1))). *(a(:, 2)-media(a(:, 2))))/(tamaño(a, 1)-1));
1. a(:, 1)-media (a(:,1)), reste el valor promedio de la columna de los elementos de la primera columna para obtener
-1.3333
-2.3333
3.6667
p>2, a(:, 2)-mean(a(:, 2)), resta la media de la columna de los elementos de la segunda columna para obtener
-0.3333
1.6667
-1.3333
3, luego multiplica el resultado del primer paso con el resultado del segundo paso
-1.3333 -0.3333 0.4444
-2.3333 .* 1.6667 = -3.8889
3.6667 -1.3333 -4.8889
4, luego suma el resultado/tamaño(a , 1)-1 , obtenemos -4.1667, que es el valor de c(1,2).
Eche un vistazo más de cerca a la fórmula de covarianza: Cov(X,Y)=E{[(X-E(X)][(Y-E(Y)]}El proceso es básicamente el mismo, excepto en el El cuarto paso de Matlab se ha ajustado ligeramente y el grado de libertad es n-1, lo que reduce el valor de muestra de una línea.
Se sabe que la covarianza es su valor propio:
Escribe. la matriz de covarianza s., y luego llame a la función de biblioteca eig(s). El método de llamada es el siguiente: [ed es la matriz de valores propios, ev es la matriz de vectores propios, el orden de magnitud: de orden inferior a orden superior.
S=[2291,333 1340 1934 2523,333 1245,333 2482; 1 945,667; 2523,333 1401,333 1436,667 2984,667 1236 2800,667; .667 1343 2729.667]"[ev, ed ]=eig(s) Primero escriba la matriz de covarianza s y luego llame a la función de biblioteca eig(s). El método de llamada: [ed es la matriz de valores propios, ev es la matriz de vectores propios y el orden es: desde orden inferior. a orden superior 333 883.3333 1480; 1934 1596 4281.667 1436.667 1663 1945.667; 245,33 3 883,333 1663 1236 843 1343; 2482 1480 1945,667 2800,667 1343 2729,667]"[ev,ed]=eig(s) p>