Red de conocimiento informático - Conocimiento informático - ¿Cómo identificar la voz de alguien a través de un instrumento?

¿Cómo identificar la voz de alguien a través de un instrumento?

La llamada huella de voz es el espectro de ondas sonoras con información del habla que se muestra mediante instrumentos electroacústicos.

La producción del lenguaje humano es un proceso fisiológico y físico complejo entre el centro del lenguaje y los órganos vocales. Los órganos vocales que las personas utilizan al hablar (la lengua, los dientes, la laringe, los pulmones y la cavidad nasal) varían mucho en tamaño y forma, por lo que las huellas de voz de dos personas cualesquiera serán diferentes. Las características acústicas del habla de cada persona son relativamente estables y variables, en lugar de permanecer absolutamente inalteradas. Esta variación puede provenir de la fisiología, patología, psicología, simulación, disfraz y también está relacionada con interferencias ambientales. A pesar de esto, dado que los órganos vocales de cada persona son diferentes, en términos generales, las personas aún pueden distinguir las voces de diferentes personas o juzgar si son la voz de la misma persona.

Reconocimiento de huellas de voz y sus aplicaciones

Existen algunas deficiencias en la aplicación del reconocimiento de huellas de voz, como la variabilidad de la voz de una persona, que se ve fácilmente afectada por la condición física, la edad y las emociones. , etc.; por ejemplo, los diferentes micrófonos y canales tienen un impacto en el rendimiento del reconocimiento; por ejemplo, el ruido ambiental interfiere con el reconocimiento, por ejemplo, en el caso de hablantes mixtos, las características de la voz humana no son fáciles de extraer; pronto. Sin embargo, en comparación con otras características biométricas, la aplicación del reconocimiento de huellas de voz tiene algunas ventajas especiales: (1) La voz con características de huellas de voz es fácil de obtener de forma natural, la extracción de huellas de voz se puede completar de forma inconsciente y la aceptación del usuario es alta (2) El costo del reconocimiento; de recolección de voz es bajo y fácil de usar. Solo requiere un micrófono y no requiere equipo de grabación adicional cuando se usa equipo de comunicación. (3) Es adecuado para la confirmación de identidad remota. Solo necesita un micrófono, teléfono o teléfono móvil para comunicarse. a través de la red (red de comunicación o Internet) para lograr el inicio de sesión remoto; (4) El algoritmo para el reconocimiento y confirmación de huellas de voz tiene baja complejidad (5) La precisión se puede mejorar mediante el uso de otras medidas, como el reconocimiento de contenido mediante el reconocimiento de voz; ; ..... Etcétera. Estas ventajas hacen que la aplicación del reconocimiento de huellas de voz sea cada vez más popular entre los desarrolladores y usuarios de sistemas. La cuota de mercado mundial del reconocimiento de huellas de voz es del 15,8%, sólo superada por la biometría de dedos y manos, y está en aumento.

1. Clasificación del reconocimiento de huellas de voz

El reconocimiento de huellas de voz (VPR), también conocido como reconocimiento de locutor, tiene dos tipos: reconocimiento de locutor y confirmación de locutor. La primera se utiliza para determinar cuál de varias personas dijo una determinada declaración, que es una "pregunta de elección"; la segunda se utiliza para confirmar si una determinada declaración fue hecha por una persona designada, que es una "identificación uno a uno"; " problema. Diferentes tareas y aplicaciones utilizan diferentes tecnologías de reconocimiento de huellas de voz. Por ejemplo, al limitar el alcance de una investigación criminal, puede ser necesaria tecnología de identificación, mientras que las transacciones bancarias requieren tecnología de confirmación. Ya sea reconocimiento o confirmación, primero es necesario modelar la huella de voz del hablante, que es el proceso llamado "entrenamiento" o "aprendizaje".

Por otro lado, existen dos tipos de reconocimiento de huellas de voz: relacionado con el texto e independiente del texto. El sistema de reconocimiento de huellas de voz relacionadas con texto requiere que el usuario pronuncie de acuerdo con el contenido especificado. El modelo de huella de voz de cada persona se establece con precisión uno por uno, y el reconocimiento también debe pronunciarse de acuerdo con el contenido especificado, para lograr mejores resultados de reconocimiento. pero el sistema necesita Si la pronunciación del usuario no coincide con el contenido especificado, el usuario no puede ser identificado correctamente. El sistema de reconocimiento independiente del texto no especifica el contenido de pronunciación del hablante, por lo que es relativamente difícil construir un modelo, pero es fácil de usar y tiene una amplia gama de aplicaciones. Dependiendo de la tarea y aplicación específicas, ambos tienen diferentes ámbitos de aplicación. Por ejemplo, el reconocimiento de huellas de voz relacionadas con texto se puede utilizar para transacciones bancarias porque los usuarios están dispuestos a cooperar cuando realizan transacciones ellos mismos en aplicaciones de investigación o interceptación criminal, el reconocimiento de huellas de voz relacionadas con textos no se puede utilizar porque no se puede pedir al sospechoso o a la persona interceptada que lo haga; Cooperar.

En el reconocimiento de locutor, dependiendo de si el locutor a reconocer está en el conjunto de locutores registrados, el reconocimiento de locutor se puede dividir en reconocimiento de conjunto abierto y reconocimiento de conjunto cerrado. El primero supone que el hablante a identificar puede estar fuera del conjunto, y el segundo supone que el hablante a identificar está dentro del conjunto. Obviamente, el reconocimiento de conjuntos abiertos requiere un "problema de negación" de los hablantes fuera del conjunto, y los resultados del reconocimiento de conjuntos cerrados son mejores que los del reconocimiento de conjuntos abiertos. Esencialmente, tanto la verificación del hablante como la identificación abierta del hablante requieren el uso de técnicas de rechazo. Para lograr un buen efecto de rechazo, generalmente es necesario entrenar un pseudomodelo o un modelo de fondo, de modo que al rechazar el reconocimiento haya objetos comparables y el umbral sea fácil de seleccionar. La calidad del modelo de fondo afecta directamente el rendimiento del rechazo e incluso el reconocimiento de huellas de voz. A menudo es necesario establecer un buen modelo de fondo utilizando algún algoritmo a partir de datos recopilados previamente de varios hablantes.

Si la tecnología alcanza un cierto nivel, el reconocimiento relacionado con el texto se puede combinar con el reconocimiento independiente del texto, y el reconocimiento de conjunto cerrado se puede combinar con el reconocimiento de conjunto abierto, proporcionando así un método de uso más conveniente. Por ejemplo, la tarjeta de identificación "Deyi" de Beijing Deyi Yintong Technology Co., Ltd. es un reconocimiento y confirmación de altavoz de conjunto abierto e independiente del texto. El SDK de la tarjeta de identificación "Deyi" también proporciona herramientas para crear modelos de fondo.

2. Cuestiones clave en el reconocimiento de huellas de voz

Se puede decir que hay dos cuestiones clave en el reconocimiento de huellas de voz, una es la extracción de características y la otra es la coincidencia de patrones (reconocimiento de patrones).

La tarea de la extracción de características es extraer y seleccionar características acústicas o lingüísticas que tengan una fuerte separabilidad y una alta estabilidad en la huella de voz del hablante. A diferencia del reconocimiento de voz, las características del reconocimiento de huellas de voz deben ser "personalizadas", mientras que las características del reconocimiento del hablante deben ser "sexuales" para el hablante. Aunque la mayoría de los sistemas de reconocimiento de huellas de voz utilizan actualmente características acústicas, las características que representan las características de una persona deben ser multifacéticas, incluyendo: (1) Características acústicas relacionadas con la estructura anatómica del mecanismo de pronunciación humana (como espectro, cepstrum, * *pico , tono, coeficiente de reflexión, etc.), sonidos nasales, sonidos de respiración profunda, sonidos roncos, risas, etc. ; (2) Semántica, retórica, pronunciación, hábitos del habla, etc. Afectados por condiciones socioeconómicas, nivel educativo y lugar de nacimiento; (3) Características o características personales como ritmo, ritmo, velocidad, entonación, volumen y otros factores influenciados por los padres. Desde la perspectiva del modelado matemático, las características que se pueden utilizar en el modelo actual de reconocimiento automático de huellas de voz son: (1) características acústicas (cepstrum); (2) características léxicas (palabra n-grama relacionada con el hablante, fonema n-grama); (3) características prosódicas (tono y "postura" energética descrita por n-gramas); (4) información de idioma, dialecto y acento; (5) información del canal (qué canal usar);

Según los diferentes requisitos de la tarea, el reconocimiento de huellas de voz también enfrenta un problema de selección de funciones o de selección de funciones. Por ejemplo, esperamos no utilizar información del "canal vocal" en aplicaciones de investigación criminal, es decir, esperamos debilitar el impacto del canal vocal en el reconocimiento del hablante, porque esperamos que el hablante pueda ser identificado sin importar qué sistema de canal vocal él usa; en un banco En la transacción, esperamos utilizar información del canal, es decir, esperamos que el canal tenga un mayor impacto en el reconocimiento del hablante, para que se pueda eliminar el impacto de la grabación y la imitación.

En resumen, una buena característica debe poder distinguir eficazmente a diferentes hablantes, pero permanecer relativamente estable cuando cambia la voz del mismo hablante, no debe ser fácilmente imitada por otros o puede resolver mejor el problema; ser confundido por otros Problemas de imitación; buen rendimiento anti-ruido;... Por supuesto, estos problemas también se pueden resolver utilizando métodos modelo.

Para el reconocimiento de patrones, existen los siguientes métodos:

(1) Método de coincidencia de plantillas: la distorsión dinámica del tiempo (DTW) se utiliza para alinear secuencias de funciones de entrenamiento y prueba, que se utiliza principalmente para Aplicación de frases fijas (generalmente tareas relacionadas con texto);

(2) Método del vecino más cercano: retenga todos los vectores de características durante el entrenamiento y encuentre los k vectores más cercanos para cada vector durante el reconocimiento para un fácil reconocimiento. almacena La cantidad de cálculo y cálculo de similitud es muy grande;

(3) Método de red neuronal: hay muchas formas, como percepción multicapa, función de base radial (RBF), etc. , se puede entrenar explícitamente para distinguir a los hablantes de los hablantes de fondo, la cantidad de entrenamiento es grande y la capacidad de generalización del modelo es pobre;

(4) Método del modelo oculto de Markov (HMM): generalmente usa HMM de un solo estado o modelo mixto gaussiano (GMM), este es un método popular con muy buenos resultados;

(5) Método de agrupamiento VQ (como LBG): buen efecto, baja complejidad de algoritmo, combinado con el método HMM Puede obtener mejores resultados;

(6) Método de clasificación polinomial: alta precisión, pero la cantidad de almacenamiento y cálculo del modelo es relativamente grande;

(7)......

Todavía hay muchos problemas clave que deben resolverse en el reconocimiento de huellas de voz, como: problema de voz corta, si el modelo se puede entrenar con voz corta y reconocer en poco tiempo, que es principalmente necesario para aplicaciones donde la voz no es fácil de resolver El problema de la imitación (o grabación) de voz requiere una distinción efectiva entre la voz imitada (grabación) y la detección efectiva de los hablantes objetivo en situaciones de varios hablantes, eliminando o debilitando el impacto de los cambios de voz; diferentes idiomas, contenidos, métodos, condiciones corporales, tiempo, edad, etc.); eliminar la influencia de las diferencias de canales y el ruido de fondo;... En este momento, es necesario utilizar algunas otras tecnologías para ayudar, como la eliminación de ruido y la adaptación. tecnología.

Aún hay un problema con la verificación del hablante. Generalmente, dos parámetros importantes que caracterizan el desempeño de un sistema de confirmación de oradores son la tasa de falso rechazo y la tasa de falsa aceptación. El primero es un error causado por rechazar altavoces reales y el segundo es un error causado por aceptar altavoces fuera del conjunto. Todos ellos están relacionados con la configuración del umbral. Con el nivel técnico actual, es imposible que ambos alcancen el valor mínimo al mismo tiempo, por lo que es necesario ajustar el umbral para satisfacer las necesidades de diferentes aplicaciones. Por ejemplo, en el caso de la "usabilidad", la tasa de rechazo falso puede ser menor y la tasa de aceptación falsa aumentará, reduciendo así la seguridad; en el caso de requisitos de "seguridad" más altos, la tasa de aceptación falsa puede ser menor; en este caso las tasas de rechazo de errores aumentarán, reduciendo la disponibilidad. El primero se puede resumir como "Es mejor cometer errores que cometer errores", y el segundo se puede resumir como "Es mejor cometer errores que cometer errores". Al ajuste del umbral real lo llamamos ajuste del "punto de operación". Un buen sistema debería permitir el libre ajuste del punto de funcionamiento.

3. Aplicaciones del reconocimiento de huellas de voz

El rango de aplicaciones del reconocimiento de huellas de voz es muy amplio. Se puede decir que el reconocimiento de huellas de voz se puede aplicar a casi todos los rincones de la vida diaria de las personas. Por ejemplo, aquí hay algunos ejemplos.

(1) Campo de información. Por ejemplo, en el sistema de centralita automática, en (www.d-ear.com/Technologies&products/products-d-ear%20ID_ch.htm) y el detector de palabras clave "satisfacción" (/technologies&products/products-d- ear % 20 word-Spotter _ ch) puede proporcionar la información de identidad de la persona que llama a la persona llamada mientras marca automáticamente el nombre. El primero se utiliza para la autenticación de identidad y el segundo para la autenticación de contenido. Asimismo, la tecnología de reconocimiento de huellas de voz puede brindar un servicio amigable y personalizado a los clientes habituales registrados en aplicaciones de centros de llamadas.

(2) Bancos y valores. En vista de la baja seguridad de las contraseñas, la tecnología de reconocimiento de huellas de voz se puede utilizar para confirmar la identidad del usuario en negocios como la banca telefónica y el comercio de acciones a distancia. Para brindar seguridad, también se pueden tomar otras medidas, como un doble seguro de contraseñas y huellas de voz, como el uso de tecnología de reconocimiento de huellas de voz relacionadas con texto para confirmar la identidad del texto de solicitud aleatorio (el texto de solicitud aleatoria no se puede falsificar con una voz pregrabada), incluso puede grabar la voz de la transacción para consultarla.

(3) Seguridad pública y justicia. Para diversos tipos de extorsión telefónica, secuestro, agresión telefónica y otros casos, la tecnología de reconocimiento de huellas de voz puede identificar a los sospechosos en una grabación o limitar el alcance de la investigación. La tecnología de reconocimiento de huellas de voz también puede proporcionar pruebas circunstanciales para la confirmación de la identidad en los tribunales;

(4) Defensa militar y nacional. La tecnología de reconocimiento de huellas de voz puede detectar si hay oradores clave durante una llamada telefónica y luego rastrear el contenido de la llamada (monitoreo del entorno del campo de batalla al emitir instrucciones militares por teléfono, puede confirmar la identidad de la persona que emite la orden (identificación de); amigo o enemigo). Actualmente, esta tecnología se ha utilizado en aplicaciones militares extranjeras. Se informa que el avión de reconocimiento militar estadounidense EP-3 que realizó un aterrizaje de emergencia en el aeropuerto de Hainan en China llevaba un módulo de interceptación de reconocimiento de huellas de voz similar.

(5) Seguridad y antifalsificación de certificados. Como por ejemplo sistemas de control de acceso a lugares secretos. Por ejemplo, el reconocimiento de huellas de voz se puede utilizar para confirmar tarjetas de crédito, cajeros automáticos de bancos, tarjetas de acceso a puertas de automóviles, computadoras autorizadas, cerraduras de huellas de voz y tarjetas de identidad de canales especiales. La huella de voz se almacena en la tarjeta. Cuando es necesario, el titular de la tarjeta sólo necesita insertar la tarjeta en el zócalo de la máquina especial y leer la contraseña prealmacenada a través del micrófono. Al mismo tiempo, el instrumento recibe la voz del titular de la tarjeta y luego la analiza y compara para completar la identidad. confirmación. También puede incorporar un chip que contenga las características de la huella de voz de alguien en el certificado y completar la lucha contra la falsificación del certificado mediante el proceso anterior.