Red de conocimiento informático - Conocimiento sistemático - ¿Cuáles son los principales desafíos y dificultades del aprendizaje profundo para el reconocimiento de voz?

¿Cuáles son los principales desafíos y dificultades del aprendizaje profundo para el reconocimiento de voz?

Aplicación del aprendizaje profundo: durante mucho tiempo, los sistemas de reconocimiento de voz han utilizado principalmente modelos de mezcla gaussiana (GMM) para describir el modelo de probabilidad estadística de cada unidad de modelado. Este modelo ha ocupado durante mucho tiempo un monopolio en las aplicaciones de reconocimiento de voz debido a su estimación simple, su idoneidad para el entrenamiento masivo de datos y su soporte técnico maduro para el entrenamiento discriminante. Sin embargo, este modelo de mezcla gaussiana es esencialmente un modelado de red superficial y no puede describir completamente la distribución de características en el espacio de estados. Además, las dimensiones de las características de los modelos GMM son generalmente docenas de dimensiones, lo que no puede describir completamente la correlación entre las características. Finalmente, el modelado GMM es esencialmente un modelado probabilístico de probabilidad y, aunque el entrenamiento discriminante puede simular la discriminabilidad entre ciertas categorías de patrones, tiene capacidades limitadas. Los expertos en reconocimiento de voz de Microsoft Research, Deng Li y Dong Yu, comenzaron a colaborar con el experto en aprendizaje profundo Geoffery Hinton en 2009. En 2011, Microsoft anunció los resultados de un sistema de reconocimiento basado en redes neuronales profundas y lanzó productos que cambiaron por completo el marco técnico original del reconocimiento de voz. Utilizando redes neuronales profundas, la correlación entre características se puede describir completamente y las características del habla de múltiples fotogramas consecutivos se pueden fusionar para formar una característica de alta dimensión. La red neuronal profunda final se puede simular entrenando en características de alta dimensión. Dado que la red neuronal profunda utiliza resultados de múltiples capas que simulan el cerebro humano, puede extraer gradualmente características de información y finalmente formar características ideales adecuadas para la clasificación de patrones. Esta estructura de múltiples capas es muy similar al cerebro humano cuando procesa información de imágenes del habla. En los servicios en línea reales, la tecnología de modelado de redes neuronales profundas se puede combinar perfectamente con la tecnología de reconocimiento de voz tradicional, lo que mejora en gran medida la tasa de reconocimiento del sistema de reconocimiento de voz sin incurrir en ningún consumo adicional del sistema. Su uso en línea es el siguiente: en el proceso de decodificación real, el modelo acústico todavía usa el modelo HMM tradicional, el modelo de voz aún usa el modelo de lenguaje estadístico tradicional y el decodificador aún usa el decodificador dinámico WFST tradicional. Sin embargo, al calcular la distribución de salida del modelo acústico, la probabilidad posterior de salida de la red neuronal se multiplica completamente por la probabilidad anterior, reemplazando la probabilidad de salida del GMM en el modelo HMM tradicional. Baidu ha descubierto en la práctica que un sistema de reconocimiento de voz que utiliza DNN para modelado de sonido puede reducir la tasa relativa de reconocimiento de errores en un 25% en comparación con un sistema de reconocimiento de voz GMM tradicional. Finalmente, en noviembre de 2012, Baidu lanzó el primer sistema de búsqueda por voz basado en DNN, convirtiéndose en una de las primeras empresas en aplicar la tecnología DNN a servicios de voz comerciales. A nivel internacional, Google también utiliza redes neuronales profundas para el modelado de sonido y es una de las primeras empresas en abrirse camino en la aplicación industrial de redes neuronales profundas. Sin embargo, la red neuronal profunda utilizada en los productos de Google solo tiene de 4 a 5 capas, mientras que la red neuronal profunda utilizada por Baidu tiene hasta 9 capas. El núcleo de esta diferencia estructural es que Baidu ha resuelto mejor el problema técnico de la computación en línea de redes neuronales profundas, por lo que los productos en línea de Baidu pueden utilizar modelos de red más complejos. Esto tendrá mayores ventajas para ampliar el entrenamiento del modelo DNN con corpus masivos en el futuro.