Sugerencias de código de reducción de dimensionalidad de datos de imagen de análisis de componentes principales PCA
Los datos están centrados. Es decir, el valor medio de cada atributo se establece en 0 (Muyang proporcionará el código fuente escrito por él mismo a continuación. Muyang usa columnas de datos para representar atributos. En este paso, establecerá el valor medio de cada columna en 0).
Encuentra la matriz de covarianza basada en la matriz centrada. La covarianza tiene tres valores. 0 significa que los atributos son independientes entre sí y no tienen influencia; un valor positivo significa que los atributos están correlacionados positivamente. Si el atributo A y el atributo B están correlacionados positivamente, entonces A aumenta, B aumenta y A disminuye. y B disminuye; un valor negativo significa que los atributos están correlacionados negativamente, si el atributo C y el atributo D están correlacionados negativamente, entonces C aumenta, D disminuye, C disminuye y D aumenta. Por tanto, la matriz de covarianza también puede entenderse como una matriz de coeficientes de correlación, que representa el grado de correlación entre atributos.
Encuentra la matriz de valores propios basada en la matriz de covarianza. Sólo los elementos en la diagonal de la matriz de valores propios tienen valores, y los elementos triangulares superior e inferior son 0.
Encuentra el vector propio correspondiente a partir de la matriz de valores propios.
Ordene la matriz de valores propios y establezca el umbral. Si la suma de las primeras i matrices propias >= el umbral establecido, entonces hay i componentes principales, tome sus correspondientes vectores propios y establezca la matriz de vectores de componentes principales.
La matriz original se multiplica por el vector componente principal transpuesto para obtener la matriz dimensionalmente reducida. Por ejemplo, si los datos originales son una matriz de 150 * 4 y se obtienen 2 componentes principales en el paso 6, entonces la matriz de componentes principales es una matriz de 2 * 4. Multiplicar la matriz de 150*4 por la matriz de 4*2 produce una matriz de 150*2, que refleja el efecto de reducción de dimensionalidad. (Este conjunto de datos con menos atributos se elige para que sea más fácil de entender para los principiantes. En proyectos reales, nuestros valores de atributos suelen ser más de 4, pero el método de reducción de dimensionalidad es el mismo).