Estándar de compresión de voz para el software de comunicación de voz QQ
Una cuestión importante en las comunicaciones de voz es maximizar la tasa de bits de codificación de compresión.
Los datos de audio generalmente tienen una alta tasa de muestreo. Si no se comprimen, consumirán mucho espacio de almacenamiento y la eficiencia de transmisión en la red es baja. El algoritmo de compresión utilizado determina la tasa de compresión. Este es el núcleo de toda la tecnología de comunicación de voz de la red y una de las tecnologías más críticas. Por tanto, la codificación de compresión digital de audio juega un papel muy importante en la comunicación de voz. Actualmente, existen muchos métodos de compresión de uso común. Los diferentes métodos tienen diferentes relaciones de compresión y calidad de sonido restaurada. Los formatos y algoritmos de codificación también son diferentes. Algunos de los algoritmos de compresión son bastante complejos y es imposible para los programas comunes implementar su codificación. y algoritmos de decodificación.
Afortunadamente, Windows9x/NT4.0/Windows2000 proporciona un fuerte soporte para aplicaciones multimedia e introduce la biblioteca de funciones de interfaz multimedia ACM[3] (Administrador de compresión de audio), que es responsable de administrar el audio y el video en todos los códecs de audio (Coder-Decoder). Es responsable de administrar todos los códecs de audio en el sistema (Coder-Decoder, conocido como Codecs, es un controlador que implementa la codificación y decodificación de datos de audio. Las aplicaciones pueden llamar a códecs ya preparados en el sistema a través de la interfaz de programación proporcionada por ACM). Para implementar la compresión y descompresión de datos de audio, los nombres de dichas funciones y estructuras generalmente tienen el prefijo "ACM".
En el compresor de audio Delphi 6, la unidad de declaración API correspondiente es MSASM.pas. En el programa Speech Compressor, el grupo de control del Administrador de compresión de audio incluye tres controles, TACMWaveIn, TACMDialog y TACMWaveOut. Los programadores pueden encontrar estos controles en el sitio web correspondiente (como m.myrice.com/controls/ACM.zip). TACMDialog es un control que se puede utilizar para especificar los formatos de entrada y salida de datos de audio. Los usuarios pueden configurarlos durante el proceso de diseño o ajustar estos parámetros a través del cuadro de diálogo cuando el programa se está ejecutando. El control TACMWaveIn se utiliza para recibir datos de audio del micrófono y el control TACMWaveOut se utiliza para la reproducción de sonido. La propiedad Numbuffers del control se usa para especificar la cantidad de buffers que se usarán antes de la reproducción, lo cual es importante para transmitir audio a través de redes inestables para almacenar en buffer los datos fluctuantes de la conexión y generar un sonido estable e ininterrumpido.
El códec de audio integrado de Windows 9x/NT/2000/XP admite múltiples estándares de compresión de datos de audio, como Microsoft AD-PCM, (IMA) ADPCM, DSPGroupTrueSpeech(TM), etc. En términos de relación de compresión, MSADPCM e IMAADPCM son 4:1, MSGSM6.10 es 2:1 y DSPGroupTrueSpeech(TM) alcanza 10:1. A juzgar por el efecto después de la restauración, MSGSM6.10 debería ser mejor. Admite una frecuencia de muestreo más alta, pero la tasa de compresión es demasiado pequeña.