Probabilidad de salida del modelo acústico
La entrada al modelo de sonido son las características extraídas por el módulo de extracción de características. Normalmente, estas características son vectores multidimensionales que pueden ser valores discretos o continuos. Los primeros modelos acústicos a menudo usaban el método de cuantificación vectorial (VQ) para asignar directamente la señal a un conjunto de códigos k, y luego calcular la probabilidad bj(k) de que el modelo j generara ese conjunto de códigos. Sin embargo, este método es tosco y su rendimiento se ve muy afectado por el algoritmo VQ. Si el propio VQ funciona mal, la estimación del modelo acústico será inexacta; Por lo tanto, las características de valores continuos deben utilizar distribuciones de probabilidad continuas. Dado que la distribución de las características de la señal de voz no puede describirse directamente mediante una distribución de probabilidad simple (como la distribución gaussiana), generalmente se utilizan métodos como un modelo gaussiano mixto o un modelo mixto de Laplace para ajustar la distribución de la señal de voz. Aquí, la distribución gaussiana mixta se puede representar como una combinación ponderada de múltiples componentes gaussianos Gi. Es decir:
G(x) = \prod_{i=1}^{n}w_i\cdot G_i(x) donde Gi(x) es una distribución gaussiana con media μi y varianza σi. Matemáticamente, cualquier distribución continua puede aproximarse mediante un modelo de mezcla gaussiana cuando i tiende al infinito. Sin embargo, existe el problema con el modelo de mezcla gaussiana de que es computacionalmente costoso. Suponiendo que un modelo de mezcla gaussiano contiene n componentes de mezcla y tiene m dimensiones, entonces se requieren al menos m / veces n operaciones para obtener el resultado. Si hay i modelos que deben calcularse, la complejidad del tiempo es O (mnk). Por el contrario, el HMM discreto es relativamente simple y solo requiere una operación de búsqueda en la tabla VQ e i para calcular los valores de probabilidad de todos los modelos. Por lo tanto, también ha surgido el modelo HMM semicontinuo que combina los dos. La idea es que la probabilidad de salida no solo esté determinada por bj (k), sino también multiplicada por la probabilidad de VQ, es decir, la probabilidad de que la señal pertenezca al sublibro de códigos.
Desde una perspectiva de precisión, el modelo ermitaño continuo es mejor que el modelo ermitaño semicontinuo, y el modelo ermitaño semicontinuo es mejor que el modelo ermitaño discreto. En términos de complejidad algorítmica, ocurre lo contrario. [2]
El modelo de mezcla gaussiana (GMM) es un modelo estadístico comúnmente utilizado en el procesamiento de señales de voz. Una premisa teórica básica de este modelo es que, siempre que el número de mezclas gaussianas sea lo suficientemente grande, estas mezclas gaussianas. Se pueden utilizar mezclas. El promedio ponderado se aproxima a una distribución arbitraria y puede alcanzar cualquier nivel de precisión. La función de densidad de probabilidad de una mezcla gaussiana que contiene M componentes es una combinación ponderada de M funciones de distribución de densidad de probabilidad gaussianas, que se define de la siguiente manera [3]:
p(x|\lambda) = \sum_{ i}^ {M}\omega_ip_i(x) donde x es un vector aleatorio D-dimensional, p_i(x), i = 1, 2, \cdots,M es el número de M componentes de la función de densidad de probabilidad, \omega_i, i = 1, 2, \cdots,M es el peso de cada componente de la función de densidad de probabilidad. En la fórmula anterior, cada componente de la función de densidad de probabilidad pi(x) obedece a la distribución gaussiana D-dimensional, es decir:
p_i(x)=\frac{1}{(2\pi)^{ D/ 2}|\Sigma_i|}. \exp\left\{-\frac{1}{2}(x-\mu)'\Sigma_i^{-1(x-\mu_i)} \right\} donde μi representa la media del componente gaussiano y Σi representa La matriz de covarianza de este componente gaussiano. Además, para cumplir con los requisitos de la distribución de la función de densidad de probabilidad, el peso de cada componente de la función de densidad de probabilidad en la fórmula anterior debe cumplir con el requisito de \sum_{i=1}^{M}w_i = 1.
En el modelo de mezcla gaussiana, cada componente de la función de densidad de probabilidad gaussiana pi(x) puede describirse mediante su peso wi, media μi y matriz de covarianza Σi. De esta forma, la distribución gaussiana completa de una mezcla compuesta por M componentes se puede representar mediante el siguiente conjunto de tripletas:
(lambda=left/{w_i,\mu_i,\Sigma_i/right/}. \ El principal problema del modelo GMM es el problema de entrenamiento, es decir, el problema de estimación de parámetros. Existen muchos métodos para la estimación de parámetros del modelo GMM, entre los cuales el método más utilizado se basa en la estimación de máxima verosimilitud (MLE).
Para una secuencia de características del habla de entrenamiento dada O = O_1,O_2,\cdots,O_T, la probabilidad del modelo GMM se define como:
p(O|\lambda) = \ prod_{t=1}^{T}p(O_t|\lambda) La idea principal de la estimación de máxima verosimilitud es encontrar la probabilidad del modelo GMM del corpus de entrenamiento. La idea principal de la estimación de máxima verosimilitud es encontrar los parámetros del modelo λ que maximicen la probabilidad del modelo GMM del corpus de entrenamiento. De manera similar al entrenamiento de HMM, el entrenamiento de GMM también se puede completar a través de EM. La fórmula de actualización de los parámetros del modelo es la siguiente:
\hat{w}_i = \frac{1}{T. }\sum_t^{T }p(i|x_t,\lambda) \hat{mu}_i = \frac{ suma_{t=1}^{T}p(i|x_t,\lambda)x_t}{sum_{ t=1}^{ T}p(i|x_t,\lambda)} \hat{sigma}_i = \frac{\sum_{t=1}^{T}p(i|x_t,\x^{2 }_t}{sum_ { t=1}^{T}p(i|x_t,\lambda)\hat{mu}_i^2}-
donde p(i | xt,λ) significa que xt pertenece al i-ésimo gaussiano Las probabilidades posteriores de los componentes Las subescalas w_i,\mu_i,\sigma_i^2 representan los pesos, medias y matrices de covarianza del modelo en la iteración anterior, y las \hat{w_i. },\hat{mu_i},\hat{ sigma}_i^2 es el parámetro correspondiente actualizado. La definición de p(i|xt,λ) es:
p(i|x_t,\ lambda. ) = \frac{w_ip_i(x_i)}\ {sum_{k=1}^M w_kp_k(x_i)} Si las dimensiones de los vectores aleatorios son independientes, entonces se puede usar una matriz de covarianza diagonal, es decir, solo la varianza Se estima que este método puede reducir en gran medida los parámetros del modelo y realizar un entrenamiento del modelo más adecuado. Al mismo tiempo, es importante tener en cuenta que en algunos casos el valor de varianza de la matriz de covarianza diagonal puede ser muy pequeño, lo que hace que la matriz de covarianza sea singular. Por lo tanto, al entrenar la covarianza diagonal, se debe usar la restricción de varianza mínima cuando se usa la matriz. Es decir, cuando la nueva varianza estimada \hat{sigma}_i de una dimensión es menor que el conjunto σmin, sea \. hat{sigma}_i igual σmin.
GMM Se usa comúnmente en el entrenamiento de modelos acústicos para modelar las probabilidades de salida de estado, y también se usa comúnmente en otras tareas de clasificación de sonido, como la segmentación y clasificación de sonido y la identificación de hablantes. p>