Por favor, dame algunos consejos sobre el chip RSC-164.
El chip integrado de voz interactivo (RSC-100/164T, RSC-300/364, RSC4XX) utilizado en productos electrónicos de consumo es un MCU de 8 bits de alto rendimiento y bajo costo. El chip de clase se integra. ADC, DAC, ROM (excepto RSC-100/300), RAM y circuito de preamplificación de micrófono, y tiene las siguientes funciones: reconocimiento de voz independiente/relacionado con el hablante, confirmación de voz (CONTRASEÑA), síntesis, grabación y reproducción de voz y música. , marcación digital rápida (solo RSC-300/364), monitoreo continuo.
La línea de productos cuenta con dos microprocesadores de uso general (serie RSC)
1 RSC-100/164T—versión de bajo costo (solo admite tecnología versión 4.0)
p>
2. RSC-300/364 (compatible con la última versión de tecnología 6.0), que tiene un tiempo de respuesta más rápido, tecnologías avanzadas y adicionales (incluida marcación digital, activación de palabra fija, generación simultánea de grabación digital y Plantilla de reconocimiento)
3. Características de los productos RSC-164/364
a) Microprocesador de 8 bits con ROM incorporada de 64k
b) Integrado; con convertidores A/D y D/A
c) DAC o PWM (modulación de ancho de pulso)
d) Puede realizar marcación DTMF
e; ) Función AGC de fuente de audio;
f) 16 puertos de E/S de uso general
g) Amplificador de salida en chip
h) Alimentación; modo ahorro- Consumo mínimo de energía (menos de 5UA).
Características del producto RSC-300/364
RSC-300/364 está especialmente diseñado para aplicaciones de electrónica de consumo y tiene un chip de sistema altamente integrado y de alta tasa de reconocimiento. RSC-300/364 tiene SDAM adicional y un acelerador de hardware para admitir la última tecnología de SENSORY (5.0 y superior). Este microprocesador de 8 bits especialmente diseñado admite una variedad de tecnologías de voz con programación flexible: reconocimiento independiente/dependiente del hablante, síntesis de voz y música, confirmación de voz, indicaciones de voz, monitoreo continuo, marcación rápida de dígitos, grabación y reproducción. RSC-300/364 permite el almacenamiento en chip de hasta 6 frases relacionadas con el hablante. La diferencia entre RSC-300 y RSC-364 es que carece de una ROM de 64K. Dependiendo del paquete y la versión, el precio del RSC-300/364 oscila entre 2,2 y 3,9 dólares estadounidenses.
Características del producto RSC-4x
RSC-4x es el producto de reconocimiento de voz de cuarta generación de Sensory INC. Tiene todas las características del RSC-300/364 y también agrega muchas funciones. . RSC-4x admite la tecnología Sensory Speech? 7 y el algoritmo mejorado mejora la precisión del reconocimiento. La nueva tecnología T2SI ahorra tiempo e inversión de capital en la creación de plantillas SI. También se han realizado mejoras en el algoritmo de síntesis de voz. La tecnología de compresión "SX?" permite que la velocidad de compresión de voz alcance 3K-8K bps (bits por segundo), que es 1/10-1/4 del original, en gran medida. reduciendo el espacio de almacenamiento, ahorrando costes. RSC-4x tiene tres modelos, RSC-4000 no contiene espacio de almacenamiento de programas, RSC-4128 tiene un espacio de almacenamiento de programas de 128K y RSC-4256 tiene un espacio de almacenamiento de programas de 256K, lo que permite a los usuarios elegir con flexibilidad.
Función VOICE DAILER (ASSP)
VOICE DAILER364 está diseñado para aumentar la marcación por voz. Puede usarse en teléfonos de automóvil no portátiles, teléfonos portátiles, PDA, contestadores automáticos y otros dispositivos personales. dispositivos electrónicos.
Los usuarios sólo necesitan decir su nombre para realizar llamadas relevantes; el chip VOICE DAILER-364 puede administrar un directorio telefónico completo, incluidos nombres, números de teléfono y plantillas de reconocimiento de voz.
Tecnología SENSORIAL
Dependiente del hablante (SD)
Durante el reconocimiento, cada palabra reconocida requiere capacitación del usuario dos veces Para crear una plantilla de voz, una plantilla requiere 128 bytes de memoria. Por razones prácticas, el número de palabras a reconocer generalmente se limita a 60 palabras, pero más de 100 palabras es completamente aceptable. A través de un diseño normal, la tecnología SD de SENSORY puede alcanzar una precisión del 99%.
Reconocimiento de voz independiente del hablante (SI)
——No se requiere capacitación
La tecnología SI está diseñada para una familia de idiomas específica (como inglés, chino, alemán). ), puede reconocer hasta 14 comandos (el número reconocido está determinado por la capacidad de la ROM). A través del diseño normal, la tecnología SI de SENSORY puede lograr una precisión del 97%
Verificación de voz (SV)
Similar a la tecnología SD, SV puede identificar la oración actual ¿Es lo mismo que lo que se dijo originalmente? Los usuarios pueden entrenar contraseñas de niveles 1 a 4 (cuantos más niveles de contraseña, más seguro) para abrir el dispositivo. La tasa de reconocimiento falso es de aproximadamente 1 a 6. Se pueden establecer cinco niveles de dificultad de entrenamiento según el entorno, la cantidad de usuarios y los niveles de seguridad requeridos.
Tecnología adaptable al altavoz (Speaker Adaptive, SA)
Para un solo usuario, SA se adapta al entorno y a la voz del hablante durante un período de tiempo para mejorar la plantilla de voz relevante, con lo que Mejorar la precisión del reconocimiento.
Escucha continua (CL)
La tecnología de escucha continua puede responder a un comando especial no continuo sin presionar una tecla (debe silenciarse antes), SENSORY Proporciona dos tecnologías de monitoreo continuo, SI y SD.
DOTACIÓN DE PALABRAS
- Responder a una palabra específica en una oración.
WORD SPOTTING es una versión mejorada del monitoreo continuo. Puede "capturar" y responder a ciertas palabras clave de conversaciones normales. Esta tecnología proporciona una interfaz humano-computadora más natural y amigable.
Dígito rápido de dígitos
——Ingrese el número de teléfono y la cadena de dígitos
Fast Digit Dial utiliza un algoritmo de reconocimiento optimizado para lograr una entrada rápida de cadenas de dígitos, esta tecnología es ideal para aplicaciones de marcación por voz, como dispositivos de comunicación portátiles, marcadores personales, teléfonos móviles y dispositivos no portátiles.
Grabación y reproducción (Grabación y reproducción)
—Reproducción de sonido digital comprimido.
El procesador de voz interactivo de SENSORY puede almacenar sonidos en una RAM externa a una velocidad de datos de 14 Kbit/s. Se puede utilizar en contestadores automáticos, cambiadores de voz y dispositivos de grabación portátiles. Dependiendo de los requisitos de calidad y cantidad de la reproducción, también se puede cambiar la tasa de compresión en el chip. Cuando se produce un silencio total durante la grabación, el microprocesador eliminará automáticamente el período de silencio para mejorar la calidad del sonido y ahorrar espacio de almacenamiento.
Síntesis de voz
——Cree una interfaz de usuario natural.
La síntesis de efectos de voz se realiza leyendo los datos de la ROM mediante el microprocesador en el chip. La tecnología de síntesis SENSORY utiliza tecnología de dominio del tiempo para comprimir la voz de modo que la velocidad de datos sea inferior a 10 kbit/s. Además, utiliza un algoritmo ADPCM mejorado para reproducir el sonido. La tecnología de síntesis de voz reduce la dependencia de las instrucciones manuales y hace que la interfaz hombre-máquina sea más amigable.
Síntesis musical
La tecnología de síntesis musical de SENSORY puede generar cuatro canciones analógicas y los usuarios también pueden personalizar la biblioteca musical con el sonido y la escala de un instrumento. La tecnología de síntesis es diferente de la grabación digital. Una canción de 2 a 3 minutos requiere solo 5 KB de capacidad de almacenamiento fuera del chip. En aplicaciones telefónicas, esta función también puede generar tonos DTMF, lo que permite al microprocesador RSC implementar funciones de marcación directa.
Control de producto
——Una solución completa de sistema en chip.
El procesador de voz RSC puede funcionar solo o como coprocesador para implementar funciones de voz. Normalmente, es el núcleo de un sistema complejo: puede proporcionar instrucciones de longitud variable con una velocidad de transmisión de 4MIPS, dos. Temporizador, interfaz de memoria externa, salida DAC y PWM, preamplificador de micrófono, 16 puertos E/S, etc.