Análisis en profundidad de la función de integración de datos de una sola celda de Seurat findgintegrationanchors 2 (algoritmo de regularización CCA y L2)
En estadística matemática todos conocemos el concepto de coeficiente de correlación. Supongamos que hay dos conjuntos de datos unidimensionales X e Y. La definición del coeficiente de correlación ρ es:
donde cov(X, Y) es la covarianza de X e Y, d (x) y d (y) son las varianzas de X e Y respectivamente. El valor del coeficiente de correlación ρ es [-1, 1]. Cuanto más cerca esté el valor absoluto de ρ de 1, mayor será la correlación lineal entre xey. Cuanto más cerca esté de 0, menor será la correlación lineal entre xey.
Aunque el coeficiente de correlación puede ayudarnos a analizar la correlación de datos unidimensionales, no se puede utilizar directamente para datos de alta dimensión. Tome lo que dijimos anteriormente, si ¿Podemos entonces ser más flexibles? CCA nos da otro enfoque.
El método utilizado por CCA es transformar linealmente X e Y multidimensionales en X' e Y' unidimensionales, y luego usar el coeficiente de correlación para ver la correlación entre X' e Y'. Cambiar datos multidimensionales a 1 también puede entenderse como CCA que reduce dimensiones, reduce datos de alta dimensión a 1 dimensión y luego usa el coeficiente de correlación para analizar la correlación. Echemos un vistazo a la idea del algoritmo de CCA.
Como dijimos anteriormente, CCA reduce la dimensionalidad de dos conjuntos de datos de alta dimensión a 1 dimensión y luego utiliza el coeficiente de correlación para realizar el análisis de correlación. Pero la pregunta es, ¿cómo elegir el estándar para la reducción de dimensionalidad? Mirando hacia atrás en el análisis de componentes principales PCA (consulte el principio de reducción de dimensionalidad de PCA unicelular), el principio de reducción de dimensionalidad es la varianza de proyección máxima. Mirando hacia atrás en LDA, el principio de reducción de dimensionalidad es la misma varianza de proyección; El tipo es pequeño y la variación de proyección entre diferentes clases es grande. Para nuestro ACC, el estándar de proyección que elige es el coeficiente de correlación más grande después de que los dos conjuntos de datos se reducen a 1.
Ahora analicemos en detalle la idea del algoritmo de CCA. Supongamos que nuestro conjunto de datos es
Para la matriz X, la proyectamos a 1 dimensión, o representación lineal, y el vector de proyección o vector de coeficiente lineal correspondiente es A; para la matriz Y, la proyectamos a 1 dimensión, o representación lineal. , El vector de proyección correspondiente o vector de coeficiente lineal es B, de modo que los vectores unidimensionales obtenidos después de la proyección de X e Y son X' e Y' respectivamente. Tenemos
La fórmula de regularización L2 es muy simple. Aumenta directamente la suma de los cuadrados de los parámetros de peso según la función de pérdida original:
donde Ein es el error de la muestra de entrenamiento sin. términos de regularización, λ es un parámetro de regularización y se puede ajustar. Pero ¿cómo se derivan los términos regulares? A continuación, detallaré el significado físico.
Sabemos que el propósito de la regularización es limitar demasiados o demasiado grandes parámetros para evitar que el modelo sea más complejo. Por ejemplo, si se utiliza un modelo polinómico, el modelo puede ser demasiado complejo y propenso a sobreajustarse si se utiliza un polinomio de orden 10. Entonces, para evitar el sobreajuste, podemos limitar el peso w de su parte de orden superior a 0, lo que equivale a transformar una forma de orden superior a una forma de orden inferior.
Para lograr este objetivo, la forma más intuitiva es limitar el número de w, pero esta condición es un problema NP-difícil y muy difícil de resolver. Por lo tanto, el enfoque general es encontrar condiciones de calificación más relajadas:
La fórmula anterior establece un límite numérico superior en la suma de los cuadrados de W, es decir, la suma de los cuadrados de todos los W no excede el parámetro c En este momento, nuestro objetivo es minimizar el error de la muestra de entrenamiento Ein, pero debe seguir la condición de que la suma de cuadrados de W sea menor que c.
A continuación utilizo un diagrama para ilustrar cómo minimizar la optimización de Ein en condiciones limitadas.
Como se muestra en la figura anterior, el área de la elipse azul es el área Ein minimizada y el círculo rojo es el área de restricción de W. En ausencia de restricciones, generalmente se usa el algoritmo de descenso de gradiente. , y estará en azul. El área elíptica continúa moviéndose en la dirección opuesta al gradiente W hasta que se encuentre el valor óptimo global wlin.
Por ejemplo, si hay un punto W en el espacio (el punto morado en la imagen), entonces W seguirá -? La dirección de Ein se mueve, como lo muestra la flecha azul en la figura. Sin embargo, debido a restricciones condicionales, W no puede salir del área circular roja y solo puede ubicarse en el borde superior del círculo, a lo largo de la dirección tangente. La dirección de W se muestra con la flecha roja en la figura.
Entonces la pregunta es, dadas condiciones limitadas, ¿dónde obtendrá finalmente W la solución óptima? En otras palabras, sobre la base del cumplimiento de condiciones limitadas, intente minimizar Ein.
Veamos cómo W se mueve a lo largo de la dirección tangente del círculo, como lo muestra la flecha verde en la imagen de arriba. La dirección del movimiento es perpendicular a la dirección W (dirección de la flecha roja). Durante el movimiento, según el conocimiento vectorial, siempre y cuando -? Ein tiene un ángulo con la dirección de marcha. Si no es perpendicular, significa -? Ein seguirá produciendo un componente en la dirección tangente de w, luego w continuará moviéndose para encontrar la siguiente solución óptima. ¿Solo cuando? Cuando Ein es perpendicular a la dirección tangente de w, -? Ein no tiene ningún componente en la dirección tangente de w, y luego w dejará de actualizarse y alcanzará la posición más cercana a wlin mientras satisface las restricciones.
-?Ein es perpendicular a la dirección tangente de w, es decir -? Ein y w son paralelos. Como se muestra en la imagen de arriba, la flecha azul y la flecha roja son paralelas entre sí. De esta forma, según la relación de paralelo:
Para mover un elemento, debes:
De esta manera integramos el objetivo de optimización y las restricciones en una sola fórmula. En otras palabras, siempre que se cumpla la fórmula anterior durante la optimización de Ein, se puede lograr el objetivo de regularización.
¡A continuación viene el punto clave! Según la idea del algoritmo de optimización: cuando el gradiente es 0, la función obtiene el valor óptimo. ¿Conocido? Ein es el gradiente de Ein. Al observar la fórmula anterior, ¿se puede considerar λw también como el gradiente de una expresión?
¡Por supuesto! λw puede considerarse como el gradiente de 1/2λw*w:
De esta manera, construimos una nueva función de pérdida basada en la fórmula obtenida de la relación paralela:
La razón porque esta definición es porque la derivación de Eaug conduce exactamente a la relación paralela buscada anteriormente. El segundo término en el lado derecho de la ecuación anterior es el término de regularización L2.
De esta manera, analizamos el significado físico de la regularización L2 desde una perspectiva visual y explicamos cómo se deriva la función de pérdida que contiene el término de regularización L2.
La fórmula de regularización L1 también es muy simple: agrega directamente el valor absoluto del parámetro de peso según la función de pérdida original:
Todavía uso una imagen para ilustrar cómo calcular. la fórmula de regularización L1 Optimización para minimizar Ein bajo regularización.
El algoritmo de optimización de Ein permanece sin cambios. La regularización de L1 limita el área efectiva de w a un cuadrado y satisface w |
La explicación física de la regularización de L1 y L2 es | introducido. Después de la derivación matemática, echemos un vistazo a la distribución de sus soluciones.
En el caso bidimensional, la regularización L2 está a la izquierda y la regularización L1 está a la derecha. Por otro lado, satisfacer la condición de regularización es en realidad resolver el punto de intersección del área azul y el área amarilla, es decir, satisfacer las condiciones de calificación y minimizar Ein al mismo tiempo. Para L2, el área definida es un círculo, por lo que la probabilidad de que la solución w1 o w2 sea 0 es muy pequeña, pero la probabilidad es muy alta.
Para L1, el área definida tiene una alta probabilidad de ser un cuadrado, y la intersección del cuadrado y el área azul es el vértice, lo cual es fácil de entender desde una perspectiva visual y de sentido común. En otras palabras, el tope cuadrado estará más cerca de la posición wlin correspondiente a la solución óptima de Ein, y debe haber w1 o w2 en el tope. De esta forma, la probabilidad de que la solución w1 o w2 sea cero es muy alta. Por tanto, la solución regularizada de L1 es escasa.
Extendiendo a dimensiones superiores, de la misma manera, el área limitada de L2 es suave y equidistante del punto central y el área limitada de L1 contiene protuberancias y es relativamente afilada; Estos protuberancias están más cerca de la posición de solución óptima de Ein. En estas protuberancias, muchos wj son 0.
Hay una excelente explicación de por qué L1 es más fácil de obtener soluciones dispersas; consulte el siguiente enlace:
/question/37096933/answer/70507353
La regularización es una implementación de estrategia para minimizar el riesgo estructural, que puede reducir efectivamente el sobreajuste. La función de pérdida en realidad incluye dos aspectos: uno es el error de la muestra de entrenamiento. Uno es el término regular. Entre ellos, el parámetro λ juega un papel de compensación.
Tomemos L2 como ejemplo. Si λ es pequeño, entonces el valor C correspondiente en el artículo anterior es grande.
En este momento, el área circular es muy grande, lo que puede acercar W a la posición de la solución óptima de Ein. Si λ es aproximadamente 0, es equivalente al área circular que cubre la posición óptima de la solución. En este momento, la regularización es ineficaz y fácilmente puede provocar un sobreajuste. Por el contrario, si λ es grande, el valor C correspondiente en el artículo anterior es pequeño. En este momento, el área circular es muy pequeña y W está lejos de la posición de la solución óptima de Ein. w está limitado a un área pequeña, generalmente muy pequeña, cercana a 0, y desempeña un papel de regularización. Pero si λ es demasiado grande, fácilmente puede provocar un desajuste. El desajuste y el sobreajuste son dos estados opuestos.
Las matemáticas son tan difíciles que tengo muchas ganas de vomitar.
La vida es buena y es aún mejor contigo.