Sección 5 sin supervisión: LDA (detalles del algoritmo derichtiano latente) (modelo de tema)
LDA es un modelo probabilístico generativo. La idea básica es que los documentos se generan a partir de múltiples temas ocultos, cada uno de los cuales es una representación distribuida de palabras.
LDA supone que cada documento del corpus D se genera de la siguiente manera:
1. Se conoce el número de temas k
2. La probabilidad de la palabra Controlado por un parámetro
El parámetro es un vector de k dimensiones, cada elemento es mayor que 0 y obedece a la distribución gamma
Parámetro, a mezcla de temas de distribución conjunta, conocido.
Parámetros, el parámetro z representa el tema, el parámetro w representa el documento:
Integre los pares de parámetros y sume z para obtener la distribución marginal del documento:
Multiplique las distribuciones marginales de todos los documentos para obtener las probabilidades de todo el corpus:
Parámetros y parámetros son parámetros a nivel de corpus utilizados en el proceso de generación del corpus.
Las variables son parámetros a nivel de documento, muestreados una vez por documento.
La suma de variables son parámetros a nivel de palabra, muestreados una vez para cada palabra en cada documento.
Se dice que un conjunto de variables aleatorias es conmutativo si la distribución conjunta es independiente del orden en que se ordenan las variables.
En LDA, asumimos que las palabras son generadas por temas, y estos temas son infinitamente intercambiables en los documentos,
donde es una variable aleatoria distribuida multinomial relacionada con los temas.
Al integrar la variable temática oculta z, se puede obtener la distribución de palabras:
Esta es una cantidad aleatoria porque depende de
Tenemos w
1. Seleccione θ?Dir(α)
2. Para cada palabra en N:
(a) De
Este procedimiento define la distribución marginal de un documento como una distribución mixta continua
El problema de inferencia de intereses utiliza LDA para calcular la distribución posterior de la variable oculta z:
Esta distribución suele ser difícil de calcular . Calcule la distribución marginal a través de la distribución normal.
Esta distribución posterior es difícil de calcular, pero aún se puede obtener con alguna inferencia variacional.
La idea básica es utilizar la desigualdad de Jensen para obtener un límite inferior ajustado y luego intentar encontrar el límite inferior más cercano optimizando los parámetros variacionales.
Una forma sencilla de hacer esto es eliminar algunos bordes y nodos del gráfico computacional original mediante flores. En LDA, el gráfico original es el gráfico de la izquierda y, al eliminarlo, se genera un gráfico de la derecha que contiene parámetros de variación libre.
El nuevo gráfico computacional utiliza la siguiente distribución variacional:
son los parámetros de Delicacy y los parámetros polinomiales (φ1,..., φ N) son parámetros de variación libre.
Después de obtener la distribución de probabilidad simplificada, el siguiente paso es iniciar el problema de optimización, es decir, determinar los valores de los parámetros variacionales.
La optimización de los parámetros variables se logra minimizando la divergencia KL y configurándola en 0, lo que da como resultado los siguientes parámetros actualizados.
En lenguajes textuales, los parámetros de optimización están documentados. En particular, consideramos el parámetro Delicadeza como la representación temática del documento.
Métodos bayesianos empíricos para la estimación de parámetros en LDA. Dado un corpus D, deseamos encontrar parámetros que maximicen la probabilidad marginal:
Estimar parámetros mediante el algoritmo de mutación EM es computacionalmente difícil.
1. Paso E, encontrar los parámetros de mutación óptimos para cada documento.
Paso 2.M, maximiza el límite inferior del resultado.
Repita estos pasos hasta que el límite inferior converja.