Red de conocimiento informático - Material del sitio web - Cómo utilizar oss javascript SDK en el entorno node.js para acceder a servicios oss

Cómo utilizar oss javascript SDK en el entorno node.js para acceder a servicios oss

Uso de texto a voz (TTS) en Microsoft Speech SDK5.1, usando C# como lenguaje de desarrollo y Visual Studio 2005 como herramienta de desarrollo, la lectura de texto mixto en chino e inglés común y la lectura de texto con etiquetas XML se realizan Leer en voz alta y guardar el contenido hablado como un archivo. Palabras clave SpeechSDK, TTS, texto a voz, lectura en voz alta 1. Descripción general de TTS Con el desarrollo de la tecnología de voz, Microsoft también ha lanzado las herramientas de desarrollo de voz correspondientes, a saber, MicrosoftSpeechSDK. Este SDK incluye Speech Application Design Interface (SAPI), el sistema de voz continua de Microsoft. motor de reconocimiento (MCSR) y motor de síntesis de voz (TTS) de Microsoft, etc. Su motor TTS (texto a voz) se puede utilizar para implementar síntesis de voz. Podemos analizar el contenido del texto y leerlo en voz alta a través del motor TTS. Hay muchas formas de implementar la tecnología TTS y actualmente se utilizan principalmente tres: tecnología de conjunción, tecnología de síntesis de voz y tecnología de conexión de subpalabras. La versión actual 5.1 del SDK puede admitir el reconocimiento de 3 idiomas (inglés, chino y japonés) y la síntesis de 2 idiomas (inglés y chino). También incluye potentes interfaces de diseño para control de bajo nivel y gestión directa del habla altamente adaptable, asistentes de capacitación, eventos, compilación de gramática, recursos, gestión de reconocimiento de voz (SR) y gestión de TTS. 2. Principio de implementación La siguiente es la estructura general de SpeechAPI: en la figura podemos ver que el motor de voz interactúa con SAPI (SpeechAPI) a través de la capa DDI (interfaz del controlador de dispositivo) y la aplicación se comunica con SAPI a través de la capa API. Al utilizar estas API, los usuarios pueden desarrollar rápidamente aplicaciones de reconocimiento o síntesis de voz. La aplicación utiliza la interfaz ISpVoice para controlar TTS. El contenido del texto se puede leer llamando al método Speak. La voz leída se puede obtener o configurar llamando al método SetVoice/GetVoice (que se ha convertido en la propiedad Voice en .NET. ). La voz de lectura se puede obtener llamando a GetVolume. /SetVolume, GetRate/SetRate y otros métodos (que se han convertido en propiedades de Volumen y Velocidad en .NET) para obtener o configurar el volumen y la velocidad de lectura. La función poderosa es que TTS puede reconocer etiquetas XML. Al agregar etiquetas XML al texto, permitimos que TTS lea oraciones que están más en línea con los hábitos de lectura del idioma. 3. Desarrollo de software 3.1. Construcción del entorno de desarrollo Dado que MicrosoftSpeechSDK se nos proporciona en forma de componentes COM, se debe introducir el archivo Interop.SpeechLib.dll cuando se utiliza el desarrollo .NET, como se muestra en la figura: Después de introducir el archivo DLL , podemos introducir el espacio de nombres agregando "usingSpeechLib;" o usar directamente el prefijo SpeechLib para usar todas las clases en el espacio SpeechLib. 3.2 Encapsulación secundaria de la clase TTS Usaremos el patrón de diseño Singleton para encapsular TTS Primero, declararemos una interfaz SpVoice y la instanciaremos con el objeto SpVoiceClass. Esta interfaz es el núcleo para realizar la lectura de texto. Luego proporcione un método para leer el texto. 3.3 Implementar lectura mixta de chino e inglés. Si llamamos directamente al método Speak en la interfaz SpVoice para leer el texto, durante el proceso de lectura, ya sea el motor de lectura en inglés o la lectura en chino. Se utilizará el motor, de modo que solo pueda leer texto puro en inglés o texto puro en chino. ¿Cómo puedo leer texto mixto en voz alta? El primer método es que podemos cambiar el motor utilizado para la lectura de acuerdo con el contenido del texto durante el proceso de lectura, es decir, llamar a los métodos SetChinaVoice () y SetEnglishVoice ().

En el segundo método, antes de leer el texto, primero analizamos el texto y agregamos etiquetas XML de voz en inglés a las oraciones en inglés, es decir, agregamos etiquetas XML de voz en chino a las oraciones en chino. De esta forma, llamando al método SpeakXml se puede lograr una lectura mixta en chino e inglés. Aquí elijo el segundo método, agrego un método estático a la clase: AddXmlLangTag y devuelvo el contenido del texto con la etiqueta agregada. 3.4 Implementación de la interfaz Al abrir un archivo, puede elegir abrir un archivo de texto (*.Txt) o un archivo XML (*.Xml). Si se abre un archivo XML, no se realizarán modificaciones en el contenido. y no se permiten ajustes de volumen y volumen, velocidad y entonación del habla, porque estos deben escribirse en el archivo XML, si abre un archivo de texto, antes de leer en voz alta, se llamará al método AddXmlLangTag para agregar etiquetas de idioma al texto; Se llamará al método AddXmlPitchTag para agregar etiquetas de entonación al texto. Al mismo tiempo, también le permite ajustar el volumen, la velocidad de conversación y la entonación. 4. Resumen Al configurar etiquetas XML de voz para contenido de texto normal y llamar al método Speak de la interfaz SpVoice, se puede lograr una lectura mixta de textos en chino e inglés. Si desea mejorar el efecto de lectura, debe configurar manualmente las etiquetas XML correspondientes para cada oración, lo que puede hacer que la lectura sea más humana. Referencias 1. Ayuda de MicrosoftSpeechSDK (sapi.chm) 2. /voz/default.mspx