Red de conocimiento informático - Consumibles informáticos - Comprensión preliminar del modelo de mezcla gaussiana (GMM) y el algoritmo EM

Comprensión preliminar del modelo de mezcla gaussiana (GMM) y el algoritmo EM

El modelo mixto gaussiano se refiere a una combinación lineal de múltiples funciones de distribución gaussiana. En teoría, GMM puede adaptarse a cualquier tipo de distribución. Generalmente se usa para resolver el problema de que los datos en el mismo conjunto contienen múltiples situaciones. de dos distribuciones diferentes (ya sea el mismo tipo de distribución pero con diferentes parámetros, o diferentes tipos de distribuciones, como la distribución normal y la distribución de Bernoulli).

Como se muestra en la Figura 1, en nuestra opinión, los puntos de la figura están claramente divididos en dos grupos. Los puntos de estos dos grupos se generan aleatoriamente a partir de dos distribuciones normales diferentes. Pero sin GMM, los datos de la Figura 1 sólo pueden describirse mediante una distribución gaussiana bidimensional. La elipse de la Figura 1 es la elipse de distribución normal con dos desviaciones estándar. Obviamente, esto no es razonable, después de todo, a primera vista, parece que deberían dividirse en dos categorías.

¡Ahora puedes usar GMM! Como se muestra en la Figura 2, la distribución espacial de los datos en el plano es la misma que la Figura 1. En este momento, se utilizan dos distribuciones gaussianas bidimensionales para describir los datos en la Figura 2, denotadas como N (μ1, Σ1) y N (μ2, Σ2) respectivamente. Las dos elipses de la figura son las dos elipses de desviación estándar de las dos distribuciones gaussianas. Se puede ver que obviamente es más razonable utilizar dos distribuciones gaussianas bidimensionales para describir los datos de la figura. De hecho, los puntos de los dos grupos de la figura se generan aleatoriamente mediante dos distribuciones normales diferentes. Si dos distribuciones gaussianas bidimensionales N (μ1, Σ1) y N (μ2, Σ2) se sintetizan en una distribución bidimensional, entonces la distribución sintetizada se puede usar para describir todos los puntos en la Figura 2. El método más intuitivo es combinar linealmente estas dos distribuciones gaussianas bidimensionales y utilizar la distribución combinada linealmente para describir los datos de todo el conjunto. Este es el modelo de mezcla gaussiana (GMM).

Representación matemática del Modelo de Mezcla Gaussiana (GMM):

El algoritmo de Maximización de Expectativas, también conocido como algoritmo EM, es un algoritmo iterativo, propuesto por Dempster et al en Proposed en 1977, se utiliza para la estimación de máxima verosimilitud de modelos de parámetros probabilísticos que contienen variables latentes.

Como algoritmo de adición de datos, el algoritmo EM se ha desarrollado rápidamente en las últimas décadas, principalmente debido a la creciente cantidad de datos en la investigación científica actual y diversas aplicaciones prácticas para el problema de datos faltantes o no disponibles. Es difícil procesar datos directamente en este momento. Hay muchas formas de agregar datos, entre las que se utilizan comúnmente el ajuste de redes neuronales, el método de llenado, el método de filtrado de Kalman, etc. La razón principal es que su algoritmo es simple y el "valor de convergencia óptimo" se puede encontrar de manera relativamente confiable mediante pasos ascendentes constantes.

(Mi entendimiento personal es ajustar continuamente expresiones paramétricas que contienen variables ocultas y finalmente converger y ajustar expresiones paramétricas sin variables ocultas)

Modelo El proceso de entrenamiento EM, intuitivamente hablando, es este : juzgamos si un modelo se ajusta bien observando la cercanía del valor de probabilidad de muestreo y el valor de probabilidad del modelo. Luego ajustamos el modelo para que el nuevo modelo sea más adecuado para el valor de probabilidad de muestreo. Este proceso se repite muchas veces hasta que los dos valores de probabilidad estén muy cerca, dejamos de actualizar y completamos el entrenamiento del modelo. Ahora vamos a implementar este proceso usando un algoritmo. El método utilizado es utilizar los datos generados por el modelo para determinar el valor de probabilidad, es decir, calcular el valor esperado de los datos a través del modelo. Maximice el valor esperado actualizando los parámetros μ y σ. Este proceso se puede repetir hasta que los parámetros generados entre dos iteraciones cambien muy poco. Este proceso es muy similar al proceso de entrenamiento del algoritmo de k-means (k-means actualiza continuamente el centro de clases para maximizar los resultados), excepto que en el modelo gaussiano aquí, necesitamos actualizar dos parámetros al mismo tiempo: la media y desviación estándar de la distribución.[3]

GMM se utiliza a menudo para agrupar. Si desea seleccionar aleatoriamente un punto de la distribución GMM, en realidad se puede dividir en dos pasos: primero, seleccione aleatoriamente uno de los K componentes. La probabilidad de que se seleccione cada componente es en realidad su coeficiente Πk. considere seleccionar un punto de la distribución de este componente; aquí hemos regresado a la distribución gaussiana ordinaria y la hemos transformado en un problema conocido.

La estimación de la densidad de probabilidad a partir de datos a menudo se denomina estimación de densidad. En particular, cuando conozco (o asumo) la forma de la función de densidad de probabilidad, el proceso de estimación de los parámetros se denomina "estimación de parámetros".

(El proceso de derivación y convergencia iterativa se omite aquí; consulte la Referencia 1)

Un ejemplo práctico: utilice GMM para agrupar el conjunto de datos del iris y expresarlo mediante make_ellipses p>

El método make_ellipses es conceptualmente muy simple. Toma el objeto gmm (modelo de entrenamiento), el eje de coordenadas y el índice de coordenadas xey como parámetros. Después de ejecutarlo, se dibuja el gráfico de elipse correspondiente en función del especificado. eje de coordenadas.

Bajo determinadas condiciones, los métodos k-means y GMM pueden expresar las ideas de cada uno. En k-medias, la categoría de cada punto se marca de acuerdo con el centro del grupo más cercano al punto. La suposición aquí es que la escala de cada grupo es cercana y no hay falta de homogeneidad en la distribución de características. Esto también explica por qué es eficaz normalizar los datos antes de utilizar k-means. El modelo de mezcla gaussiana no está sujeto a esta restricción porque examina el modelo de covarianza de características por separado para cada grupo.

El algoritmo K-means puede considerarse como una forma especial del modelo de mezcla gaussiana (GMM). En general, el modelo de mezcla gaussiana puede proporcionar un poder descriptivo más fuerte, porque la afiliación de puntos de datos durante la agrupación no solo está relacionada con los vecinos más cercanos, sino que también depende de la forma del grupo. La forma de la distribución gaussiana de n dimensiones está determinada por la covarianza de cada grupo. Es posible obtener los mismos resultados con GMM y k-medias después de agregar restricciones específicas en la matriz de covarianza.

Cuando se utiliza EM en el método k-means para entrenar un modelo de mezcla gaussiana, es muy sensible a la configuración del valor inicial. En comparación con k-medias, el método GMM tiene más condiciones iniciales que establecer. En la práctica, no sólo se debe especificar el centro de clase inicial, sino que también se deben establecer la matriz de covarianza y los pesos de mezcla. Puede ejecutar k-means para generar centros de clases y utilizarlos como condiciones iniciales para un modelo de mezcla gaussiana. Se puede ver que los dos algoritmos tienen procesos de procesamiento similares y la principal diferencia radica en la complejidad del modelo.

El supuesto básico del modelo de mezcla gaussiana es que se conocen la proporción de categorías y el número de categorías, pero no se conoce la etiqueta específica de cada muestra. En base a esto, se utiliza el modelo EM. optimizar cada muestra. En otras palabras, es adecuado para problemas de clasificación de aprendizaje sin etiquetas y requiere supuestos básicos conocidos.

En general, todos los algoritmos de aprendizaje automático no supervisados ​​siguen un patrón simple: dado un conjunto de datos, entrena un modelo que pueda describir los patrones de los datos (y espera que el proceso subyacente genere los datos). El proceso de entrenamiento generalmente requiere iteraciones repetidas hasta que los parámetros ya no se pueden optimizar para obtener un modelo que se ajuste mejor a los datos.

1/developer/news/231599 Matemáticas en aprendizaje automático (4) -Algoritmo EM y modelo de mezcla gaussiana (GMM)

3/p/31103654 Un artículo que explica el principio de Gauss modelo de mezcla en detalle