Documentos de solicitud (reconocimiento de voz)
La aplicación de las máquinas de dictado con reconocimiento de voz en muchos campos fue calificada por los medios estadounidenses como uno de los diez principales acontecimientos en el desarrollo informático en 1997. Muchos expertos consideran que la tecnología de reconocimiento de voz es uno de los diez avances tecnológicos más importantes en tecnología de la información entre 2000 y 2010.
La tecnología de reconocimiento de voz implica procesamiento de señales, reconocimiento de patrones, teoría de la probabilidad y teoría de la información, mecanismos de vocalización y audición, inteligencia artificial y otros campos. Clasificación y aplicación de tareas Según los diferentes objetos de reconocimiento, las tareas de reconocimiento de voz se pueden dividir aproximadamente en tres categorías, a saber, reconocimiento de palabras aisladas (reconocimiento de palabras aisladas), reconocimiento de palabras clave (o reconocimiento de punto fijo de palabras clave) y reconocimiento de voz continuo. Entre ellos, la tarea del reconocimiento de palabras aisladas es identificar de antemano palabras aisladas conocidas, como "abrir", "cerrar", etc., la tarea del reconocimiento de voz continuo es reconocer cualquier discurso continuo, como una oración o una palabra; párrafo; en el flujo de voz continuo La detección de palabras clave es para voz continua, pero es diferente del posicionamiento de palabras clave. La detección de palabras clave en flujos de voz continuos tiene como objetivo el habla continua, pero no reconoce todos los textos, solo detecta dónde aparecen algunas palabras clave conocidas, como detectar las palabras "computadora" y "mundo" en un párrafo.
Según los diferentes hablantes, la tecnología de reconocimiento de voz se puede dividir en reconocimiento de voz de persona específica y reconocimiento de voz de persona no específica. El primero solo puede reconocer el habla de una o varias personas, mientras que el segundo puede usarse. por cualquiera. Obviamente, el sistema de reconocimiento de voz de una persona no específica se ajusta mejor a las necesidades reales, pero es mucho más difícil que el reconocimiento de una persona específica.
Además, según los diferentes dispositivos y canales de voz, también se puede dividir en reconocimiento de voz de escritorio (PC), reconocimiento de voz de teléfono y reconocimiento de voz de dispositivo integrado (teléfono móvil, PDA, etc.). Diferentes canales de adquisición distorsionarán las características acústicas de la pronunciación humana, por lo que es necesario construir sistemas de reconocimiento correspondientes.
El reconocimiento de voz se utiliza ampliamente. Los sistemas de aplicaciones comunes incluyen sistemas de entrada de voz, en comparación con los métodos de entrada de teclado, que están más en línea con los hábitos diarios de las personas y son más naturales y eficientes. dispositivos de control La operación es más rápida y más conveniente que el control manual, y se puede utilizar en muchos campos, como control industrial, sistemas de marcación por voz, electrodomésticos inteligentes, juguetes inteligentes controlados por voz, etc., el sistema de consulta de diálogo inteligente funciona de acuerdo. a la voz del cliente, brindando a los usuarios servicios de consulta de Bases de Datos naturales y amigables, como servicios a domicilio, servicios hoteleros, sistemas de servicios de agencias de viajes, sistemas de reserva de boletos aéreos, servicios médicos, servicios bancarios, servicios de consulta de acciones, etc. El procesamiento frontal se refiere al procesamiento del habla original antes de la extracción de características para eliminar parcialmente el ruido y la influencia de diferentes hablantes, de modo que la señal procesada pueda reflejar mejor las características esenciales del habla. El procesamiento front-end más utilizado es la detección de puntos finales y la mejora del habla. La detección de punto final se refiere a distinguir los períodos de la señal de voz y de no voz en la señal de voz y a determinar con precisión el punto de inicio de la señal de voz. Después de la detección del punto final, solo se puede procesar posteriormente la señal de voz, lo que juega un papel importante en la mejora de la precisión y la tasa de reconocimiento correcto del modelo. La principal tarea de la mejora del habla es eliminar el impacto del ruido ambiental en el habla. El método más utilizado actualmente es utilizar el filtrado Wiener, que funciona mejor que otros filtros en entornos ruidosos. Procesamiento de características acústicas La extracción y selección de características acústicas es una parte importante del reconocimiento de voz. La extracción de características acústicas no es sólo un proceso de comprimir una gran cantidad de información, sino también un proceso de deconvolución de señales, cuyo propósito es permitir que el divisor de modos realice mejores divisiones. Dado que la señal de voz varía en el tiempo, la extracción de características debe realizarse en un pequeño segmento de la señal de voz, es decir, un análisis a corto plazo.
Este intervalo de análisis considerado suave se denomina cuadro y el desplazamiento entre cuadros generalmente se considera 1/2 o 1/3 de la longitud del cuadro. Por lo general, la señal se preenfatiza para potenciar las frecuencias altas y se coloca en ventanas para evitar los efectos de los bordes cortos del segmento de voz. Algunas características acústicas de uso común* Coeficiente de predicción lineal LPC: el análisis de predicción lineal comienza desde el mecanismo de la vocalización humana y, mediante el estudio del modelo de cascada de tubo corto del canal vocal, se supone que la función de transferencia del sistema se ajusta a la forma de un filtro digital omnipolar, por lo que n La señal en un momento determinado se puede estimar mediante una combinación lineal de las señales en varios momentos anteriores. El coeficiente de predicción lineal (LPC) se obtiene minimizando el error cuadrático medio (LMS) entre el valor de la muestra de voz real y el valor de la muestra de predicción lineal. El LPC se calculó utilizando el método de autocorrelación (método Durbin de Dubin). La rapidez y eficiencia del cálculo garantizan la amplia aplicación de esta característica teórica. Al igual que LPC, existen otras características acústicas como el par de espectro de líneas LSP, el coeficiente de reflexión, etc.
* CEP: utilizando el método de procesamiento homomórfico, tome el logaritmo de la transformada discreta de Fourier DFT de la señal de voz y luego realice la transformada inversa iDFT para obtener los coeficientes de cepstrum. Para LPC cepstrum (LPCCEP), después de obtener el coeficiente de predicción lineal del filtro, se puede calcular mediante una fórmula recursiva. Los experimentos muestran que el uso de cepstrum mejora la estabilidad de los parámetros característicos.
Firmas acústicas basadas en investigaciones. La investigación sobre el mecanismo auditivo humano ha descubierto que cuando se emiten dos tonos con frecuencias similares al mismo tiempo, las personas sólo pueden escuchar un tono. El ancho de banda crítico se refiere al límite del ancho de banda en el que ocurren los cambios sensoriales subjetivos. Cuando la diferencia de frecuencia entre dos tonos es menor que el ancho de banda crítico, las personas escucharán los dos tonos como un solo tono. Este es el llamado efecto de blindaje. La escala Mel es una medida de este ancho de banda crítico.
Al calcular MFCC, primero convierta la señal en el dominio del tiempo al dominio de la frecuencia a través de FFT, luego convolucione su espectro de energía logarítmico con un banco de filtros triangular distribuido de acuerdo con la escala Mel y finalmente tome los primeros N Los coeficientes realice una transformada de coseno discreta (DCT) en el vector formado por las salidas de filtro individuales. PLP todavía usa el método Durbin para calcular los parámetros LPC, pero también usa un par de parámetros de autocorrelación para calcular los parámetros de autocorrelación. DCT del espectro logarítmico de excitaciones auditivas. Modelado acústico El modelo de un sistema de reconocimiento de voz suele constar de dos partes: un modelo acústico y un modelo de lenguaje, que corresponden respectivamente al cálculo de la probabilidad de habla en sílabas y al cálculo de la probabilidad de sílabas en palabras. Esta sección y la siguiente presentarán las técnicas de modelado acústico y modelado del lenguaje, respectivamente.
Modelado acústico HMM: el concepto del modelo de Markov es un autómata de estado finito en el dominio del tiempo discreto, y el modelo oculto de Markov HMM es un modelo de Markov, y el mundo exterior no puede ver el estado interno del modelo de Markov. En el modelo de marido, el mundo exterior solo puede ver el valor de producción en cada momento. Para los sistemas de reconocimiento de voz, los valores de salida suelen ser características acústicas calculadas a partir de cada cuadro. El uso de HMM para describir señales de voz requiere hacer dos suposiciones: una es que la transición del estado interno solo está relacionada con el estado anterior y la otra es que el valor de salida solo está relacionado con el estado actual (o la transición del estado actual). Los supuestos reducen en gran medida la complejidad del modelo. Los algoritmos correspondientes para la puntuación, decodificación y entrenamiento de HMM incluyen el algoritmo de avance, el algoritmo de Viterbi y el algoritmo de avance-retroceso.
Los HMM utilizados en el reconocimiento de voz generalmente adoptan un modelado primitivo de reconocimiento de topología cruzada, de bucle automático y unidireccional de izquierda a derecha.
Un fonema es un HMM de tres a cinco estados, una palabra es un HMM compuesto por una serie de HMM de múltiples fonemas que componen la palabra, y todo el modelo de reconocimiento continuo de voz es un HMM que combina palabras y silencios: homónimos. consulte Un sonido cambia bajo la influencia de los sonidos adyacentes antes y después. Desde la perspectiva del mecanismo de producción de sonido, las características del órgano vocal humano solo pueden cambiar gradualmente a medida que un sonido pasa a otro, de modo que el sonido. de estos últimos cambios de sonido el espectro es diferente del que se produce en otras condiciones. El método de modelado relacionado con el contexto tiene en cuenta esta influencia al modelar, de modo que el modelo puede describir el habla con mayor precisión. El método de modelado que solo considera la influencia del tono anterior se denomina método de dos tonos, que considera el tono anterior y el anterior. el siguiente tono. El método de modelar la influencia de un tono se llama método de los tres tonos.
El modelado del inglés dependiente del contexto generalmente utiliza fonemas como unidad básica. Dado que algunos fonemas tienen efectos similares en fonemas posteriores, el modelo se puede definir mediante la agrupación de parámetros de decodificación de fonemas. El árbol de decisión logra una correspondencia eficiente entre tres sonidos y fonemas respondiendo una serie de preguntas sobre las categorías a las que pertenecen los sonidos anteriores y posteriores (vocal/consonante, sordo/sonoro, etc.) y, en última instancia, determina qué fonema debe usarse para su Estado HMM. El modelo CART de árbol de clasificación y regresión se utiliza para la anotación de pronunciación de palabras a fonemas. Modelos de lenguaje Los modelos de lenguaje se dividen principalmente en dos categorías: modelos basados en reglas y modelos estadísticos. Los modelos de lenguaje estadístico utilizan estadísticas de probabilidad para revelar las leyes estadísticas inherentes de las unidades de lenguaje. Entre ellos, N-Gram es simple, efectivo y ampliamente utilizado.
N-gramática: este modelo se basa en el supuesto de que la aparición de la enésima palabra solo está relacionada con las primeras N-1 palabras y no tiene nada que ver con ninguna otra palabra. frase es que cada palabra aparece producto de probabilidades. Estas probabilidades se pueden obtener contando el número de co-ocurrencias de N palabras directamente del corpus.
El rendimiento de los modelos de lenguaje suele medirse mediante entropía cruzada y complejidad (Perplejidad). La entropía cruzada significa lo difícil que es reconocer texto usando el modelo o, desde una perspectiva de compresión, cuántos bits se usan en promedio para codificar cada palabra. La complejidad se refiere al número promedio de ramas utilizadas para identificar el texto usando el modelo, y su recíproco puede verse como la probabilidad promedio de cada palabra. El suavizado se refiere a asignar un valor de probabilidad a N combinaciones de tuplas no observadas para garantizar que las secuencias de palabras siempre pasen por el modelo de lenguaje con un valor de probabilidad. Las técnicas de suavizado más utilizadas incluyen la estimación de Turing, el suavizado por interpolación de eliminación, el suavizado de Katz y el suavizado de Kneser-Ney. La búsqueda en la búsqueda de reconocimiento continuo de voz es una búsqueda de una secuencia de modelos de palabras que describen la señal de voz de entrada para obtener una secuencia de decodificación de palabras. La búsqueda se basa en la puntuación del modelo acústico y la puntuación del modelo de habla en la fórmula. En aplicaciones prácticas, a los modelos de lenguaje generalmente se les asignan pesos más altos y se les asignan puntuaciones de penalización de palabras más largas según la experiencia.
Algoritmo de Viterbi: el algoritmo de Viterbi se basa en programación dinámica. Calcula la probabilidad posterior de decodificación de secuencia de estados para la secuencia de observación de cada estado en cada punto de tiempo, retiene la ruta con la mayor probabilidad y calcula. la probabilidad posterior de decodificación de la secuencia de estado en cada nodo Registre la información de estado correspondiente para obtener la secuencia de decodificación de palabras inversa final. El algoritmo de Viterbi resuelve este problema sin perder la solución óptima y también resuelve el problema de alineación temporal no lineal de la secuencia de estados del modelo HMM y la secuencia de observación acústica en el reconocimiento continuo de voz, la detección de límites de palabras y el reconocimiento de palabras, lo que convierte este algoritmo en el básico. Estrategia para la búsqueda por reconocimiento de voz.
Debido a que el reconocimiento de voz no puede predecir lo que sucederá después del momento actual, la poda basada en causas basada en la función objetivo es difícil de aplicar. Debido a las características de alineación temporal del algoritmo de Viterbi, cada ruta corresponde al mismo tiempo a la misma secuencia de observación y, por lo tanto, es comparable. La búsqueda del haz solo retiene las primeras rutas con la mayor probabilidad en cada momento. mejora la eficiencia de la búsqueda. Este algoritmo de haz de Viterbi alineado en el tiempo es actualmente el algoritmo más eficaz en la búsqueda de reconocimiento de voz. Búsqueda N-mejor y búsqueda multidireccional: para utilizar varias fuentes de conocimiento en la búsqueda, generalmente se requiere una búsqueda multidireccional. Por primera vez, se utilizan fuentes de conocimiento de bajo costo para generar listas de candidatos o cuadrículas de palabras candidatas. sobre esta base, se utilizan fuentes de conocimiento de alto costo para generar listas de candidatos o cuadrículas de palabras candidatas. La fuente de conocimiento realiza una segunda búsqueda para obtener la mejor ruta.
Las fuentes de conocimiento introducidas anteriormente incluyen modelos acústicos, modelos de lenguaje y diccionarios de símbolos fonéticos, que pueden usarse para la primera búsqueda. Para un reconocimiento de voz más avanzado o una comprensión del lenguaje hablado, generalmente es necesario utilizar algunas fuentes de conocimiento más costosas, como N-Gram de cuarto o quinto orden, modelos relacionados con el contexto de cuarto o orden superior, interpalabras. modelos de correlación, modelos de segmentación o análisis gramatical para volver a puntuar. Muchos sistemas recientes de reconocimiento continuo de voz en tiempo real adoptan esta estrategia de búsqueda multicanal.
La búsqueda de N mejores produce una lista de rutas candidatas, mientras que retener N mejores rutas en cada nodo aumenta la complejidad computacional a N veces. Un enfoque simplificado es mantener sólo un cierto número de palabras candidatas en cada nodo, pero es posible que se pierdan las candidatas subóptimas. Un enfoque de compromiso es considerar sólo dos caminos de longitud de palabra y retener k de ellos. La cuadrícula de palabras candidatas puede proporcionar múltiples palabras candidatas de una manera más compacta, y el algoritmo para generar la cuadrícula de palabras candidatas se puede obtener modificando en consecuencia el algoritmo de búsqueda N-mejor.
El algoritmo de búsqueda hacia adelante y hacia atrás es un ejemplo de aplicación de búsqueda de múltiples candidatos. Después de aplicar una búsqueda de Viterbi hacia adelante a una fuente de conocimiento simple, las probabilidades hacia adelante obtenidas durante la búsqueda se pueden usar con precisión para calcular la función objetivo de la búsqueda hacia atrás, por lo que el algoritmo heurístico A se puede usar para realizar una búsqueda hacia atrás para buscar económicamente N candidato. Implementación del sistema Los requisitos para seleccionar primitivas de reconocimiento para un sistema de reconocimiento de voz son: definición precisa, datos de entrenamiento suficientes y generalidad. El inglés suele modelarse utilizando fonemas que dependen del contexto, mientras que la coarticulación china no es tan severa como la del inglés y puede modelarse utilizando sílabas. La cantidad de datos de entrenamiento requeridos por el sistema está relacionada con la complejidad del modelo. Si el modelo está diseñado para ser tan complejo que excede la capacidad de los datos de entrenamiento proporcionados, resultará en una caída drástica en el rendimiento.
Máquinas de dictado: Los sistemas de reconocimiento continuo del habla, de amplio vocabulario, no específicos y continuos, suelen denominarse máquinas de dictado. Su arquitectura es una topología HMM construida sobre los modelos acústicos y de lenguaje descritos anteriormente. Durante el proceso de entrenamiento, los parámetros del modelo de cada primitiva se obtienen mediante el algoritmo hacia adelante y hacia atrás. Durante el reconocimiento, las primitivas se concatenan en palabras, se agregan modelos de silencio entre palabras y el modelo de lenguaje sirve como probabilidad de transferencia entre palabras. introducido para formar una estructura cíclica y decodificado utilizando el algoritmo de Viterbi. En vista del hecho de que el chino es fácil de segmentar, segmentar antes de decodificar cada segmento es un método simplificado para mejorar la eficiencia.
Sistema de diálogo: el sistema utilizado para realizar el diálogo hablado entre humanos y computadoras se denomina sistema de diálogo. Debido a las limitaciones técnicas actuales, los sistemas de diálogo tienden a centrarse en campos reducidos, con vocabulario limitado, y el tema principal son consultas sobre viajes, reservas de billetes, recuperación de bases de datos, etc. La interfaz es un reconocedor de voz, que reconoce las N mejores palabras candidatas o redes de palabras candidatas. El analizador de sintaxis las analiza para obtener información semántica y luego el administrador de diálogo determina la información de respuesta, que es generada por el sintetizador de voz. Dado que el vocabulario de los sistemas actuales suele ser limitado, también se puede obtener información semántica extrayendo palabras clave. Adaptabilidad y robustez El rendimiento de los sistemas de reconocimiento de voz se ve afectado por muchos factores, incluidos diferentes hablantes, estilos de habla, ruido ambiental, canales de transmisión, etc. Mejorar la robustez del sistema es mejorar la capacidad del sistema para superar la influencia de estos factores para que el sistema tenga un rendimiento estable en diferentes entornos y condiciones de aplicación. El propósito de la adaptación es ajustar el sistema de manera deliberada y automática de acuerdo con diferentes fuentes de energía; Influencia. Mejora gradualmente el rendimiento a medida que lo utilizas. A continuación se presentan soluciones para diferentes factores que afectan el rendimiento del sistema.
Las soluciones se dividen en dos categorías: métodos dirigidos a características del habla (en lo sucesivo, métodos de características) y ajustes de modelo (en lo sucesivo, métodos de modelo). El primero implica encontrar mejores parámetros de características con alta robustez o agregar algún procesamiento específico a los parámetros de características existentes. Este último utiliza un pequeño corpus adaptativo para modificar o transformar el modelo original independiente del hablante (SI), convirtiéndolo en un modelo adaptativo del hablante (SA).
Los métodos de características adaptativas del hablante incluyen la normalización de la métrica del hablante y los métodos del subespacio del hablante, y los métodos de modelado incluyen métodos bayesianos, métodos de transformación y métodos de fusión de modelos.
El ruido en los sistemas de voz incluye el ruido ambiental y el ruido electrónico añadido durante el proceso de grabación.
Los métodos de características para mejorar la robustez del sistema incluyen la mejora del habla y la búsqueda de características que sean insensibles a la interferencia de ruido, y los métodos de modelado incluyen métodos PMC de combinación de modelos paralelos y la adición artificial de ruido durante el proceso de entrenamiento. La distorsión del canal incluye la distancia de los micrófonos al grabar, el uso de micrófonos con diferentes sensibilidades, preamplificadores con diferentes ganancias y diferentes diseños de filtros. Los métodos de caracterización incluyen restar el promedio a largo plazo de los vectores cepstrum de los vectores cepstrum y el filtrado RASTA, y los métodos de modelado incluyen el desplazamiento de cepstrum. Microsoft Speech Recognition Engine Microsoft ha aplicado su propio motor de reconocimiento de voz tanto en Office como en Vista. El uso de Microsoft Speech Recognition Engine es completamente gratuito. Por lo tanto, se han producido muchas aplicaciones de reconocimiento de voz desarrolladas en base a Microsoft Speech Recognition Engine, como ". Voice Game Master", "Voice Control Expert", "Open Sesame" y otro software. Indicadores de rendimiento de los sistemas de reconocimiento de voz Hay cuatro indicadores de rendimiento principales de los sistemas de reconocimiento de voz. Rango de vocabulario: se refiere al rango de palabras o frases que la máquina puede reconocer. Si no hay restricciones, el rango de vocabulario puede considerarse ilimitado. Restricción del hablante: si solo se puede reconocer la voz del remitente especificado o si se puede reconocer la voz de cualquier remitente. (Requisitos de capacitación: si la máquina debe entrenarse antes de su uso, es decir, si la máquina debe "escucharse" una voz determinada primero y cuántas veces debe entrenarse. Tasa de reconocimiento correcto: la tasa de reconocimiento correcto promedio, relacionada a los primeros tres indicadores.
Resumen
Lo anterior ha introducido la tecnología de implementación de varios aspectos de los sistemas de reconocimiento de voz. Estas tecnologías han logrado buenos resultados en aplicaciones prácticas, pero cómo superarlas. Aún se necesitan varios factores que afectan el habla. En la actualidad, el sistema de máquina de dictado no puede reemplazar completamente la entrada del teclado, pero la madurez de la tecnología de reconocimiento también ha promovido la investigación de tecnologías de comprensión del habla de mayor nivel. diferentes características, ¿cómo abordarlas? La aplicación de la tecnología propuesta en inglés al chino también es un tema de investigación importante, y los problemas exclusivos del chino, como los cuatro tonos, también deben resolverse con urgencia.