Red de conocimiento informático - Espacio del host - Principio del control por voz del teléfono móvil

Principio del control por voz del teléfono móvil

Principios del reconocimiento de voz

El reconocimiento de voz es una rama del reconocimiento de patrones, que pertenece al campo de la ciencia del procesamiento de señales y está estrechamente relacionado con temas como la fonética, la lingüística, la estadística matemática y la neurobiología. El propósito del reconocimiento de voz es permitir que las máquinas "comprendan" el lenguaje hablado humano, que incluye dos significados: uno es comprender palabra por palabra sin traducir al lenguaje escrito, el otro es comprender los requisitos o consultas contenidos en el lenguaje hablado y; dar respuestas correctas en lugar de ceñirse a la conversión correcta de todas las palabras.

La tecnología de reconocimiento automático de voz tiene tres principios básicos: primero, la información del lenguaje en la señal de voz se codifica de acuerdo con el patrón variable en el tiempo del espectro de amplitud a corto plazo; segundo, el habla se puede leer; es decir, independientemente del contenido informativo que el hablante intenta transmitir, su señal acústica puede representarse mediante decenas de símbolos diferenciados y discretos, la tercera interacción del habla es un proceso cognitivo, por lo que es inseparable del; gramática, semántica y pragmática de la estructura del lenguaje.

Preprocesamiento, incluido muestreo de señales de voz, filtrado de paso de banda anti-aliasing, eliminación de diferencias de pronunciación individuales y efectos de ruido causados ​​por el equipo y el entorno, etc. , también implica la selección de primitivas de reconocimiento de voz y detección de puntos finales. La extracción de características se utiliza para extraer parámetros acústicos que reflejan características esenciales del habla, como la energía promedio, la tasa promedio de cruce por cero, * pico de vibración, etc. El entrenamiento implica pedirle al hablante que repita el discurso varias veces antes de identificarlo, eliminar información redundante de la muestra del discurso original, retener datos clave y luego agrupar los datos de acuerdo con ciertas reglas para formar una biblioteca de patrones. Finalmente, la coincidencia de patrones es el núcleo de todo el sistema de reconocimiento de voz. Calcula la similitud entre las características de entrada y los patrones de inventario (como la distancia de coincidencia y la probabilidad de probabilidad) basándose en ciertas reglas (como una determinada medida de distancia) y conocimiento experto (como reglas de formación de palabras, reglas gramaticales y reglas semánticas), y determina la semántica de la información del habla de entrada.

El objeto principal del reconocimiento de voz

La tecnología de reconocimiento de voz se basa en el análisis de tres atributos básicos del habla: atributos físicos, atributos fisiológicos y atributos sociales.

1. Las propiedades físicas del habla. Los llamados atributos físicos incluyen principalmente el tono, la duración, la intensidad del sonido y el timbre. El tono se refiere a la altura del sonido, determinada principalmente por la velocidad de vibración del cuerpo sonoro; la longitud del sonido se refiere a la duración del sonido, determinada principalmente por la duración de la vibración del cuerpo sonoro; la intensidad del sonido se refiere a la fuerza de; el sonido, determinado principalmente por la vibración del cuerpo que suena. Determinado por la amplitud; el timbre se refiere a las características del sonido, que está determinado principalmente por diferentes formas de ondas sonoras formadas por la vibración del objeto que produce el sonido.

2. Características fisiológicas del habla. Los llamados atributos fisiológicos se refieren principalmente a la influencia de los órganos vocales en la pronunciación, incluidos los pulmones y la tráquea, la cabeza y las cuerdas vocales, así como órganos vocales como la cavidad bucal, la cavidad nasal y la cavidad faríngea.

3. Atributos sociales del habla. Los llamados atributos sociales se manifiestan principalmente en tres aspectos. En primer lugar, no existe una conexión necesaria entre sonidos y significados, y su correspondencia la establecen los miembros de la sociedad; en segundo lugar, cada lengua o dialecto tiene su propio sistema fonético; en tercer lugar, la pronunciación tiene una función única;

El proceso básico de reconocimiento de voz varía dependiendo de la aplicación real. El sistema de reconocimiento de voz se puede dividir en: reconocimiento de personas específicas y no específicas, reconocimiento de palabras independientes y palabras continuas, reconocimiento de vocabulario pequeño y vocabulario grande, y reconocimiento de vocabulario ilimitado. Pero no importa qué tipo de sistema de reconocimiento de voz, sus principios básicos y métodos de procesamiento son generalmente similares.

El proceso de reconocimiento de voz incluye principalmente el preprocesamiento de la señal de voz, la extracción de características y la coincidencia de patrones. El preprocesamiento incluye prefiltrado, muestreo y cuantificación, ventanas, detección de puntos finales y preénfasis. La parte más importante del reconocimiento de señales de voz es la extracción de parámetros de características. Los parámetros de características extraídos deben cumplir los siguientes requisitos:

(1) Los parámetros de características extraídos pueden representar eficazmente características del habla y tener buena discriminabilidad (2) Hay buena independencia entre cada orden de parámetros;

(3) Los parámetros de las funciones son fáciles de calcular y es mejor contar con algoritmos eficientes para garantizar la implementación del reconocimiento de voz en tiempo real.

En la fase de entrenamiento, después de procesar los parámetros de las características hasta cierto punto, se establece un modelo para cada entrada y se guarda como una biblioteca de plantillas. En la etapa de reconocimiento, la señal de voz obtiene parámetros de características de voz a través del mismo canal, genera una plantilla de prueba, la compara con la plantilla de referencia y utiliza la plantilla de referencia con la puntuación de coincidencia más alta como resultado del reconocimiento.

Al mismo tiempo, con la ayuda de una gran cantidad de conocimientos previos, se puede mejorar la precisión del reconocimiento.

Cita: /wenda/thread? tid=7a3db6ac3c2d61bb