¿Cómo explicar los principios técnicos del reconocimiento de voz?
Como entrada importante a la inteligencia artificial, el reconocimiento de voz se está volviendo cada vez más popular. Desde Dingdong, una colaboración entre JD.com e iFlytek, hasta el producto estrella de Amazon, Echo, y la guerra hombre-máquina lanzada por Google Master y Baidu Xiaodu el mes pasado, ha atraído suficiente atención. Pero la voz es sólo una entrada, el contenido sigue siendo el rey para guiar a los usuarios a tomar decisiones e incluso consumir… El sistema de reconocimiento de voz se divide en dos etapas: entrenamiento y decodificación. Entrenamiento, es decir, entrenar el modelo acústico a través de una gran cantidad de datos de voz anotados, incluidos GMM-HMM, DNN-HMM, RNN + CTC, etc., es decir, reconocer datos de voz fuera del conjunto de entrenamiento en texto a través de; modelo acústico y modelo de lenguaje. Las herramientas de código abierto más utilizadas actualmente incluyen HTK Speech Recognition Toolkit, Kaldi ASR y sistemas de un extremo a otro basados en Tensorflow (speech-to-text-wavenet). Tomaré el antiguo y clásico HTK como ejemplo para ilustrar los conceptos y principios involucrados en el campo del reconocimiento de voz. HTK proporciona un amplio conjunto de herramientas para procesar datos de voz, así como para entrenamiento y decodificación. El reconocimiento de voz se divide en sistemas de reconocimiento de voz de palabras aisladas y de palabras continuas. Al principio, los Laboratorios Bell (1952) y la Corporación IBM (1962) utilizaron sistemas para identificar palabras aisladas (números para personas específicas y palabras individuales en inglés). Reconocimiento continuo de palabras, debido a que diferentes personas tienen diferentes entonaciones y pausas en diferentes escenarios, es difícil determinar los límites de las palabras y el número de cuadros segmentados no es necesariamente el mismo y los resultados del reconocimiento requieren un procesamiento posterior a la puntuación por parte de un idioma; modelo, para obtener resultados lógicos.