Conceptos básicos de audio
La audición del oído humano tiene un rango de frecuencia, aproximadamente 20Hz ~ 20kHz.
Datos de audio discretos (digitales) obtenidos mediante tecnología de muestreo y cuantificación. La computadora procesa internamente datos binarios y audio digital, por lo que el audio analógico debe convertirse en una secuencia discreta representada por un número limitado de números mediante muestreo y cuantificación (es decir, digitalización de audio).
Para señales de audio de alta calidad, el rango de frecuencia (el rango de frecuencia que el oído humano puede escuchar) es de 20 Hz ~ 20 kHz, por lo que la frecuencia de muestreo es generalmente de 44,1 kHz, lo que garantiza que el sonido muestreado pueda alcanzar 20kHz Ser digitalizado, de modo que después del procesamiento digital, la calidad del sonido escuchado por el oído humano no se reduzca. El llamado 44,1kHz significa que se muestreará 44.100 veces por segundo.
La cuantización se refiere a la digitalización de la señal en el eje de amplitud, como por ejemplo el uso de una señal binaria de 16 bits para representar una muestra de sonido.
Representa el número de dígitos binarios de una muestra, es decir, el número de bits de la muestra. La cuantificación es el proceso de convertir datos discretos obtenidos mediante muestreo en números binarios. La profundidad de cuantificación indica cuántos bits se utilizan para representar cada punto de muestreo. En las computadoras, la profundidad de cuantificación del audio es generalmente de 4, 8, 16, 32 bits. ), etc. Por ejemplo: cuando la profundidad de cuantificación es de 8 bits, cada punto de muestreo puede representar 256 valores de cuantificación diferentes, y cuando la profundidad de cuantificación es de 16 bits, cada punto de muestreo puede representar 65536 valores de cuantificación diferentes. El tamaño de la profundidad de cuantificación afecta la calidad del sonido. Obviamente, cuantos más bits haya, más cerca estará la forma de onda cuantificada de la forma de onda original, mayor será la calidad del sonido y más espacio de almacenamiento se requerirá. >
Es decir, según un determinado registro, se muestrean y cuantifican datos digitales en un formato, como el almacenamiento secuencial o el almacenamiento comprimido.
== Tasa de bits == (se utiliza para medir la capacidad de los datos de audio por unidad de tiempo)
Es un tipo de hardware que realiza la conversión mutua de ondas de sonido/ señales digitales. La función básica de una tarjeta de sonido es convertir señales de sonido originales de micrófonos, cintas y discos compactos y enviarlas a equipos de sonido como auriculares, parlantes, amplificadores y grabadoras, o hacer que los instrumentos musicales emitan hermosos sonidos a través del Interfaz digital de equipos musicales (MIDI).
==Compresión sin pérdidas== significa que los datos descomprimidos se pueden restaurar por completo. Entre los formatos de compresión más utilizados, el más utilizado es la compresión con pérdida.
==Compresión con pérdida== significa que los datos descomprimidos no se pueden restaurar por completo y se perderá parte de la información. , cuanta más información se pierda, mayor será la distorsión después de la restauración de la señal.
Según los diferentes escenarios de aplicación (incluidos dispositivos de almacenamiento, entornos de red de transmisión, dispositivos de reproducción, etc.), se pueden seleccionar diferentes algoritmos de codificación de compresión, como PCM, WAV, AAC, MP3, Ogg, etc.
lt;ugt; El principio de la codificación de compresión es en realidad comprimir señales redundantes. Las señales redundantes se refieren a señales que el oído humano no puede percibir.
Y una implementación. La codificación WAV (hay muchos métodos de implementación, pero ninguno realiza operaciones de compresión) es agregar 44 bytes delante del formato de datos PCM para describir la frecuencia de muestreo PCM, el número de canales, el formato de datos, etc.
MP3 tiene una buena relación de compresión. Los archivos MP3 con tasas de bits medias y altas que utilizan codificación LAME (una implementación del formato de codificación MP3) suenan muy parecidos al archivo WAV de origen. Se deben ajustar los parámetros apropiados para lograr los mejores resultados.
Características: La calidad del sonido es buena por encima de 128 Kbit/s, la relación de compresión es relativamente alta, una gran cantidad de software y hardware lo admiten y la compatibilidad es buena.
Ocasiones aplicables: apreciación musical que requiere compatibilidad con altas velocidades de bits.
AAC es una nueva generación de tecnología de compresión de audio con pérdida. A través de algunas tecnologías de codificación adicionales (como PS, SBR, etc.), se han derivado tres tipos: LC-AAC, HE-AAC y HE. -AAC v2. Principales formatos de codificación
Características: Excelente rendimiento a velocidades de bits inferiores a 128 Kbit/s y se utiliza principalmente para codificación de audio en vídeos.
Ocasiones aplicables: codificación de audio por debajo de 128 Kbit/s, utilizada principalmente para codificar pistas de audio en vídeos.
Ogg es una codificación muy prometedora que tiene un rendimiento excelente en varias velocidades de bits, especialmente en escenarios de velocidades de bits medias y bajas. Además de su buena calidad de sonido, Ogg también es completamente gratuito, lo que sienta las bases para que Ogg obtenga más soporte. Ogg tiene un algoritmo excelente, que puede lograr una mejor calidad de sonido con una velocidad de bits menor que MP3lt ;/ugt; , tiene un buen rendimiento con velocidades de bits altas, medias y bajas, pero la compatibilidad no es lo suficientemente buena y las funciones de transmisión de medios no son compatibles.
Ocasiones aplicables: escenarios de mensajes de audio para chat de voz.
(Moving Picture Experts Group, Moving Picture Experts Group) es un grupo establecido en 1988 por ISO (Organización Internacional de Normalización, Organización Internacional de Normalización) e IEC (Comisión Electrotécnica Internacional, Comisión Electrotécnica Internacional) específicamente para imágenes en movimiento. y Una organización que desarrolla estándares internacionales para la compresión del habla.
Un cuadro de audio Acc contiene 1024 puntos de muestreo y un cuadro de audio MP3 contiene 1152 puntos de muestreo.
El tiempo de reproducción de fotogramas de audio.
Las "pistas" paralelas que se ven en el software secuenciador. Cada pista de audio define los atributos de la pista de audio, como el timbre de la pista, la biblioteca de timbres, el número de canal, el puerto de entrada/salida, el volumen, etc.
Cuando se utiliza un secuenciador, una pista corresponde a una parte de la música, que graba datos MIDI o de audio en una posición de tiempo específica. Cada pista se puede definir como la interpretación de un instrumento. Todos los secuenciadores pueden permitir el funcionamiento multipista, lo que significa que todas las pistas de una canción, ya sea MIDI o audio, se pueden reproducir al mismo tiempo.
Se refiere a señales de audio independientes que se recopilan o reproducen en diferentes ubicaciones espaciales durante la grabación o reproducción de sonido. Por lo tanto, el número de canales es también el número de fuentes de sonido durante la grabación de sonido o el número correspondiente de altavoces. durante la reproducción.
A partir del doble canal, el sonido se asigna a dos canales independientes durante el proceso de grabación, logrando así un buen efecto de localización del sonido. Esta tecnología es particularmente útil en la apreciación de la música. El oyente puede distinguir claramente la dirección de donde provienen varios instrumentos, haciendo que la música sea más imaginativa y más cercana a la experiencia en el sitio.
Al grabar sonido, si se genera una onda de sonido cada vez, se llama monofónico; si se generan dos ondas de sonido cada vez, se llama binaural. El uso de la grabación binaural de sonido puede reproducir la dirección del sonido hasta cierto punto y reflejar las características auditivas del oído humano.
La frecuencia de muestreo de audio se refiere al número de veces que el dispositivo de grabación muestrea la señal de sonido en un segundo. Cuanto mayor sea la frecuencia de muestreo, más realista y natural se restaurará el sonido. En las tarjetas de captura convencionales actuales, las frecuencias de muestreo generalmente se dividen en cinco niveles: 11025 Hz, 22050 Hz, 24000 Hz, 44100 Hz y 48000 Hz.
La frecuencia corresponde al eje de tiempo y la amplitud corresponde al eje de nivel. La onda es infinitamente suave y se puede considerar que la cuerda está compuesta de innumerables puntos. Dado que el espacio de almacenamiento es relativamente limitado, los puntos de la cuerda deben muestrearse durante el proceso de codificación digital.
El proceso de muestreo consiste en extraer el valor de frecuencia de un determinado punto. Obviamente, cuantos más puntos se extraen en un segundo, más rica se obtiene la información de frecuencia. Para restaurar la forma de onda, se deben muestrear dos puntos en una vibración. oído humano La frecuencia más alta que se puede sentir es 20 kHz. Por lo tanto, para cumplir con los requisitos auditivos del oído humano, se requieren al menos 40 k muestras por segundo, expresadas como 40 kHz. Estos 40 kHz son la frecuencia de muestreo. Nuestro CD común tiene una frecuencia de muestreo de 44,1 kHz.