Red de conocimiento informático - Problemas con los teléfonos móviles - ¿Para qué sirve TTS?

¿Para qué sirve TTS?

TTSlt;/Bgt; es la abreviatura de Text To Speech, es decir, "de texto a voz". Es un trabajo sobresaliente que utiliza tanto la lingüística como la psicología. Con el apoyo de chips integrados y el diseño de redes neuronales, convierte de manera inteligente texto en flujos de voz naturales. La tecnología TTS convierte archivos de texto en tiempo real y el tiempo de conversión se puede calcular en segundos. Bajo la acción de su exclusivo controlador de voz inteligente, la voz de la salida de texto es suave, lo que hace que el oyente se sienta natural al escuchar la información, sin la frialdad y las sacudidas de la salida de voz de la máquina. La tecnología de síntesis de voz TTS pronto cubrirá los caracteres chinos de primer y segundo nivel del estándar nacional. Tiene una interfaz en inglés, reconoce automáticamente chino e inglés y admite lectura mixta de chino e inglés. Todas las voces utilizan mandarín en persona real como pronunciación estándar, logrando una rápida síntesis de voz de 120-150 caracteres chinos/segundo y una velocidad de lectura de 3-4 caracteres chinos/segundo, lo que permite a los usuarios escuchar una calidad de sonido clara y agradable, y coherente y entonación suave. Hoy en día, un pequeño número de reproductores MP3 tienen función TTS.

TTS es un tipo de aplicación de síntesis de voz que convierte archivos almacenados en el ordenador, como archivos de ayuda o páginas web, en salida de voz natural. TTS puede ayudar a las personas con discapacidad visual a leer información en las computadoras o simplemente puede usarse para aumentar la legibilidad de los documentos de texto. Las aplicaciones TTL actuales incluyen correo electrónico controlado por voz y sistemas sensibles al sonido. TTS se utiliza a menudo con programas de reconocimiento de voz. Actualmente existen muchos productos TTS, incluidos Read Please 2000, Proverbe Speech Unit y TextAloud de Next Up Technology. Lucent, Elan y AT&T tienen sus propios productos de síntesis de voz.

Además del software TTS, muchas empresas también ofrecen productos de hardware, incluido el Quick Link Pen de WizCom Technologies de Israel, que es un dispositivo con forma de bolígrafo que puede escanear y leer texto y Ostrich Software The company's Road; Runner es un dispositivo portátil que puede leer texto ASCII; también existe el DecTalk TTS de la compañía estadounidense DEC, que es un dispositivo de hardware externo que puede reemplazar la tarjeta de sonido. Contiene un dispositivo de software interno que puede cooperar con la propia tarjeta de sonido de la computadora personal. . Trabajar. La conversión de texto a voz TTS tiene una amplia gama de usos, incluida la lectura de correos electrónicos, indicaciones de voz para sistemas IVR, etc. En la actualidad, los sistemas IVR se han utilizado ampliamente en diversas industrias (como telecomunicaciones, transporte, etc.).

La tecnología clave utilizada en TTS es la síntesis de voz (SpeechSynthesis). Los primeros TTS se implementaban generalmente utilizando chips dedicados, como el TMS50C10/TMS50C57 de Texas Instruments, el PH84H36 de Philips, etc., pero se usaban principalmente en electrodomésticos o juguetes para niños.

TTS basado en aplicaciones de microcomputadoras generalmente se implementa con software puro, que incluye principalmente las siguientes partes:

●Análisis de texto: realiza análisis lingüístico del texto de entrada y realiza vocabulario y vocabulario. análisis oración por oración Análisis gramatical y semántico para determinar la estructura de bajo nivel de la oración y la composición de fonemas de cada palabra, incluida la segmentación de texto, segmentación de palabras, procesamiento de polifonos, procesamiento de números, procesamiento de abreviaturas, etc.

●Síntesis de voz: extrae las palabras o frases correspondientes al texto procesado de la biblioteca de síntesis de voz y convierte la descripción lingüística en formas de onda de voz.

●Procesamiento de rimas: Calidad del habla sintética (Calidad del habla sintética) se refiere a la calidad del habla producida por el sistema de síntesis del habla, que generalmente es subjetiva en términos de claridad (o inteligibilidad), naturalidad y coherencia. La claridad es el porcentaje de escuchar y distinguir correctamente palabras significativas; la naturalidad se utiliza para evaluar si la calidad del sonido del habla sintetizada es cercana a la voz humana y si la entonación de las palabras sintetizadas es natural para evaluar si las palabras sintetizadas son coherentes; las oraciones son fluidas.

Para sintetizar voz de alta calidad, el algoritmo utilizado es extremadamente complejo, por lo que los requisitos de la máquina también son muy altos.

La complejidad del algoritmo determina la capacidad del sistema de los microordenadores actuales para TTS multicanal concurrente.

En los sistemas generales de aplicación CTI, existirá IVR (sistema interactivo de respuesta de voz). El sistema IVR es una parte importante del centro de llamadas. A través del sistema IVR, los usuarios pueden usar botones de audio para ingresar información en el teléfono y obtener información de voz sintetizada o digital pregrabada del sistema. IVR con función TTS puede acelerar el servicio, ahorrar costos de servicio y permitir que IVR brinde a las personas que llaman servicio 7*24 horas.

La mayoría de los sistemas IVR comunes actuales están compuestos por placas de voz insertadas en una plataforma informática industrial general y admiten síntesis de voz china TTS y otras tecnologías.

Un proceso típico de servicio telefónico que incluye el servicio TTS se puede dividir en:

El usuario marca, el sistema IVR responde y obtiene las pulsaciones de teclas del usuario y otra información.

IVR se aplica a datos relevantes del servidor de base de datos en función de la información de pulsaciones de teclas del usuario.

El servidor de base de datos devuelve datos de texto al IVR.

IVR envía la información de texto que necesita ser sintetizada al servidor TTS a través de su interfaz de comunicación TCP.

El servidor TTS segmenta los datos de voz sintetizados por el texto del usuario y los envía al servidor IVR a través de la interfaz de comunicación TCP.

El servidor IVR ensambla datos de voz segmentados en archivos de voz independientes.

IVR reproduce el archivo de voz correspondiente al usuario del teléfono.

El acceso a la red pública general (IVR) utiliza principalmente placas de voz de computadora industrial y los datos de voz sintetizados se transmiten al IVR a través de la LAN. Esta estructura sólo es adecuada para aplicaciones sencillas. Incluyendo el procesamiento y la síntesis del habla china, utilizando conocimientos relevantes como la prosodia china para realizar la segmentación de palabras, el juicio de partes del discurso, la notación fonética y la conversión de símbolos digitales para oraciones en chino. La síntesis del habla obtiene el habla consultando la base de datos del habla china. En la actualidad, los sistemas TTS chinos más famosos incluyen: sistemas desarrollados por IBM, Microsoft, Fujitsu, iFlytek, Jietong Huasheng, etc. En la actualidad, lo que es más crítico es que existen muchos problemas en el procesamiento de la prosodia china, los símbolos y números, los caracteres polifónicos y la formación de palabras, que necesitan investigación continua para hacer que la síntesis del habla china sea más natural. La tecnología CTI integra las telecomunicaciones y las computadoras entre sí, superando las deficiencias de los servicios informáticos y de telecomunicaciones tradicionales relativamente únicos y combinando perfectamente los dos. Sus campos de aplicación son muy amplios. La tecnología CTI se utilizará en cualquier sistema que requiera comunicaciones de voz y datos, especialmente aquellos sistemas que esperan combinar redes informáticas y redes de comunicación para completar el intercambio de información de voz y datos.

TTS es Text To Speech, que involucra múltiples disciplinas como acústica, lingüística, tecnología matemática de procesamiento de señales, tecnología multimedia, etc. Es una tecnología de vanguardia en el campo del procesamiento de información china. texto que aparece en la computadora en una salida de voz natural y fluida.

TTS se puede aplicar en el servidor IVR (respuesta de voz interactiva) en el sistema CTI para proporcionar una plataforma interactiva de voz, proporcionar indicaciones de voz para las llamadas telefónicas de los usuarios y guiar a los usuarios para seleccionar el contenido del servicio e ingresar el número de teléfono. llamadas, datos requeridos y aceptar información ingresada por los usuarios en el teclado de marcación del teléfono para lograr acceso interactivo a bases de datos de computadora y otros materiales de información.

El uso de TTS en IVR puede convertir automáticamente información de texto en archivos de voz o sintetizar información de texto en voz en tiempo real y publicarla por teléfono. Realice una conversión bidireccional automática de texto y voz para lograr la interacción automática entre las personas y el sistema, y ​​atienda a los clientes en cualquier momento y en cualquier lugar. El personal de mantenimiento ya no necesita grabar manualmente, solo necesita introducir documentos electrónicos en el sistema, y ​​el sistema puede convertir automáticamente los documentos electrónicos en mensajes de voz y reproducirlos para los clientes. La gran cantidad de datos almacenados en la base de datos se puede recuperar y sintetizar en voz en cualquier momento de acuerdo con las condiciones de la consulta sin grabación previa, lo que reduce en gran medida la carga de trabajo de los agentes.

Entonces, ¿cómo agregar la funcionalidad TTS a las aplicaciones CTI? Algunas plataformas de conmutación más avanzadas han implementado la función TTS dentro del conmutador y la proporcionan como parte de la interfaz estándar. Los desarrolladores de servicios solo necesitan llamarlos para usar esta función en sus servicios.

Para las PBX que no implementan funciones TTS, los desarrolladores comerciales deben elegir ellos mismos la plataforma adecuada y realizar un desarrollo secundario sobre esta base, es decir, llamar a la interfaz estándar proporcionada por la plataforma TTS seleccionada para implementar la síntesis de voz. . Función.

En la actualidad, CTI se ha convertido en una de las industrias de más rápido crecimiento en el mundo, creciendo a un ritmo del 50% cada año. CTI es una cadena industrial en forma de pirámide como la industria informática, y crecerá al mismo ritmo. al menos 20 veces de arriba a abajo. Valor aumentado. Como nueva tecnología atractiva, TTS seguramente constituirá una mejor perspectiva de aplicación si puede integrarse bien en aplicaciones de servicios de valor agregado.

Hangzhou Yintong Software Co., Ltd. es una empresa de alta tecnología organizada conjuntamente por el Ministerio de Educación y el Gobierno Popular Provincial de Zhejiang y con sede en la Universidad de Zhejiang. Yintong se dedica principalmente a la investigación y el desarrollo. tecnología de voz por computadora y la desarrolla gradualmente en investigación en reconocimiento de voz, transmisión de voz y otros campos del habla. Su tecnología central (Intone_TTS) es una tecnología china de síntesis de voz con derechos de propiedad intelectual independientes. Fue identificada unánimemente como líder nacional por expertos en la evaluación organizada por el Departamento Provincial de Ciencia y Tecnología de Zhejiang, y ha solicitado varios reconocimientos nacionales. patentes.

Intone_TTS es un conjunto de herramientas de desarrollo para convertir información de texto en información de voz. Proporciona a los integradores de sistemas y desarrolladores de software funciones de interfaz completas y ejemplos de programación, lo que permite a los usuarios llamar e integrarse de manera flexible en otros sistemas de aplicaciones. La interfaz requiere el soporte de la biblioteca de tiempo de ejecución de síntesis de voz y es adecuada para una variedad de entornos de desarrollo. Los desarrolladores pueden elegir según escenarios de aplicación específicos.

Puede realizar síntesis de voz para todos los caracteres chinos, ingleses y números arábigos.

Admite la edición de caracteres chinos tradicionales y caracteres multifonéticos; efecto: natural, fluido

Interfaz de llamada de funciones estandarizada, también admite llamadas Microsoft SAPI; admite llamadas sincrónicas y métodos de llamadas asincrónicas

Soporta PCM Wave, uLaw/aLaw Wave, ADPCM; Dialogic Vox y otros formatos de voz;

Admite código GB2312 (chino simplificado), código BIG5 (chino tradicional), código UNICODE

Admite síntesis simultánea de múltiples canales

Admite tableros de voz convencionales como Dialogic, Dongjin y Sanhui; TTS es Texto a voz, texto a voz, lectura de texto, que significa casi lo mismo. Se utiliza a menudo en el desarrollo del sistema del habla.

Hay muchos TTS en el mercado y existen varios métodos de implementación. Algunos son muy costosos, como iFlytek, que se dice que recibió financiación del programa 863 y algunos son relativamente altos; baratos, como Jietong Huasheng, InfoTalk; también los hay gratuitos, como el producto TTS de Microsoft.

En comparación con ASR (reconocimiento automático de voz, reconocimiento automático de voz), la dificultad técnica requerida para implementar un producto TTS no es muy difícil, en mi opinión, es solo una tarea laboriosa.

Si nos pidieran que hiciéramos un TTS que pudiera leer oraciones en chino en voz alta, ¿qué haríamos?

Existe uno de los TTS más sencillos, que consiste en pronunciar cada palabra. Te preguntarás, ¿por qué no grabar la voz de más de 6.000 caracteres chinos? Afortunadamente, el chino tiene muy pocas sílabas y muchos homófonos. Lo máximo que necesitamos grabar es: el número de consonantes iniciales x el número de finales x 4 (de hecho, no todas las pronunciaciones tienen 4 tonos, de esta forma sólo necesitamos grabar unos cientos de voces como máximo).

Al sintetizar, necesita una tabla comparativa de caracteres chinos correspondientes a Pinyin. El método de entrada de Pinyin chino también se basa en esta tabla, que se puede encontrar en línea. Sin embargo, generalmente no hay tonos de 4 tonos. En el peor de los casos, puedes agregarlo tú mismo, jaja. De lo contrario, es una actividad física.

El efecto TTS producido por este método también es bueno, especialmente cuando se leen algunas oraciones chinas que no tienen un significado especial, como nombres, direcciones particulares, códigos de acciones, etc., suena bastante claro. Esto es gracias a que nuestras grandes lenguas nativas suelen ser monosilábicas, y desde la antigüedad cada carácter chino tiene una palabra y expresa un significado. Además, los caracteres chinos son diferentes del inglés. En inglés, hay muchos sonidos conectados y los tonos y ritmos cambian mucho. Los caracteres chinos son mucho más simples.

Por supuesto, todavía hay que ocuparse de algunos detalles, como los caracteres multifonéticos. Está mal pronunciar "banco" como "yin xing"; otro ejemplo es el procesamiento de signos de puntuación y números; y cartas, etc. Por supuesto, no es difícil para usted que ha escrito muchos programas.

Los TTS que tienen algunos casetes de placa de voz doméstica, ya sean vendidos o gratuitos, generalmente se producen de esta forma, que es el efecto.

Si desea mejorar el efecto de TTS, trabaje un poco más y registre palabras básicas en el habla, como palabras comunes de dos caracteres, modismos de cuatro caracteres, etc., y luego cree un vocabulario. y biblioteca de voz Busque la tabla de comparación en el diccionario de sinónimos cada vez que necesite sintetizarla. De esta manera, el efecto es naturalmente mucho mejor cuando se usan palabras como unidad en lugar de palabras como unidad. Por supuesto, todavía hay una tecnología involucrada, que es la tecnología de segmentación de palabras. También es un poco técnico dividir oraciones complejas en secuencias de palabras razonables. Esto también se debe achacar a los pioneros de la nueva cultura. Cuando defendieron por primera vez la escritura vernácula e introdujeron el formato horizontal y los signos de puntuación de las lenguas occidentales, no introdujeron los participios espaciales en las lenguas occidentales. Sin embargo, incluso si el algoritmo de segmentación de palabras es tan ineficiente e inexacto, no es un gran problema. Como se mencionó anteriormente, los caracteres chinos son palabras monosilábicas y generalmente no hay errores cuando se combinan los sonidos.

Por supuesto, iFlytek ha realizado más trabajo físico. Se dice que ha evolucionado para grabar en unidades de oraciones de uso común, esto requiere más esfuerzo y da como resultado un mejor efecto.

En cuanto a agregar algo de "material de vocabulario" en el punto de conexión y hacer algunos tonos decorativos, creo que es irrelevante y no mejorará demasiado el efecto general.

Los TTS comerciales en el mercado generalmente admiten cantonés. Simplemente contrate a un locutor cantonés para grabar y rehacer el laborioso trabajo anterior.

Además, mucha gente piensa que es mejor contratar a un locutor de radio o televisión para grabar. De hecho, puedes encontrar una colega a tu alrededor para grabar, siempre y cuando las palabras se pronuncien con claridad. , estará bien. En algunos casos, una voz normal es más linda que un noticiero bien hablado.

Hablemos de identificación de texto. Para texto complejo, algunos programas de contenido no pueden manejarlo y necesitan ser identificados. Por ejemplo, ¿el número simple "128" debería pronunciarse como "ciento veintiocho" o "ciento veintiocho"? La solución suele ser agregar etiquetas XML, como TTS de Microsoft: "lt; context ID = "number_cardinal"gt; 128lt; /contextgt; "pronunciado como "ciento veintiocho", "lt; context ID = "number_digit "gt; ;128lt;/contextgt;"Se pronuncia como "一二八". El motor TTS puede interpretar estas anotaciones. Desafortunadamente, la anotación XML de voz no ha formado un estándar plenamente reconocido por todos. Básicamente, cada uno tiene su propio conjunto de estándares.

Hablemos de la programación de aplicaciones TTS. La interfaz de programación TTS de Microsoft se llama SAPI, que es una interfaz COM. Afortunadamente, la información en el sitio web de MSDN es un poco complicada. Aunque el TTS de Microsoft es gratuito, el carácter chino actualmente tiene voz masculina y la voz es un poco confusa, lo que me hace sentir incómodo.

Los fabricantes nacionales en general proporcionan interfaces de llamada API, que son relativamente simples y pueden integrarse fácilmente en las aplicaciones.

El TTS comercial también tiene un límite de licencias concurrentes, lo que limita la cantidad de subprocesos concurrentes que se pueden sintetizar al mismo tiempo. Creo que este límite no es muy útil. No importa qué tipo de TTS, los archivos de texto se pueden convertir en archivos de voz para reproducirlos en tarjetas de voz.

La mayoría de las oraciones de las aplicaciones son relativamente cortas, generalmente no más de 100 caracteres chinos, y el tiempo de síntesis es muy corto. Cree un hilo específicamente responsable de la síntesis. Si la oración es muy larga, otras aplicaciones pueden simplemente solicitarla. en varias partes Solo una frase corta, la velocidad de reproducción siempre es más lenta que la velocidad de síntesis.

Muchas aplicaciones también se sintetizan sin conexión y no requieren rendimiento en tiempo real, por lo que no es necesario comprar varias licencias.

En la mayoría de los casos, ni siquiera necesitamos comprar TTS, como un recordatorio de tarifa común en el desarrollo de voz. Después de marcar, se reproducirá: "Estimado cliente, su tarifa este mes es: 212 yuanes. ." La parte anterior es igual para todos los clientes, solo graba un archivo de voz, y la síntesis de números es muy sencilla. Solo necesitas grabar 10 voces digitales, más decenas, centenas, miles, diez mil, más la unidad de dinero "yuanes".

Plan de Trascendencia TTS (Training Tool Scheme)

En vista de los problemas de recursos humanos que enfrentan actualmente las empresas en crecimiento, resuelve tridimensionalmente los cuellos de botella de recursos humanos y mediante la construcción de empresas y expertos, un importante proyecto de propiedad intelectual para realizar la dirección de recursos humanos para fortalecer la empresa con talentos. Cultivar talentos superiores de gestión de recursos humanos para empresas, proporcionar herramientas avanzadas de gestión de recursos humanos y ayudar a las empresas a establecer una planificación estratégica moderna de recursos humanos. A través del método del "Esquema de herramientas de capacitación", podemos resolver problemas difíciles de recursos humanos para el sistema empresarial y luego construir un sistema de gestión de recursos humanos científico y completo.

RECARGO TTS TERMINAL DE TIANJIN

Recargo del puerto de Tianjin. Tasa cobrada a los barcos que pasan por Japón y Corea del Sur en 2009