Introducción a los códecs de compresión de vídeo de vigilancia
(1), M-JPEG
La tecnología M-JPEG (Motion-Join Photographic Experts Group) es una tecnología de compresión de imágenes en movimiento y fijas (o cuadro por cuadro). que se usa ampliamente en el campo de edición no lineal, puede ser preciso para la edición de cuadros y el procesamiento de imágenes de múltiples capas, y la secuencia de video en movimiento se puede procesar como una imagen fija continua. Este método de compresión comprime cada cuadro de forma individual y completa, y puede. almacene aleatoriamente cada cuadro durante el proceso de edición Realice una edición con precisión de cuadro, y la compresión y descompresión M-JPEG son simétricas y pueden implementarse mediante el mismo hardware y software. Pero M-JPEG sólo comprime la redundancia espacial dentro del cuadro. La redundancia temporal entre cuadros no está comprimida, por lo que la eficiencia de la compresión no es alta. Utilizando el formato de compresión digital M-JPEG, cuando la relación de compresión es 7:1, puede proporcionar programas equivalentes a imágenes de calidad Betecam SP.
El algoritmo en el que se basa el estándar JPEG se basa en DCT (Discrete Cosine Transform) y codificación de longitud variable. Las tecnologías clave de JPEG incluyen codificación de transformación, cuantificación, codificación diferencial, compensación de movimiento, codificación de Huffman y codificación de longitud de ejecución, etc.
La ventaja de M-JPEG es que puede lograr fácilmente una edición con precisión de cuadro. y equipamiento Más maduro. La desventaja es que la eficiencia de la compresión no es alta.
Además, el método de compresión M-JPEG no es un estándar de compresión completamente unificado y no existe un formato prescrito unificado para códecs y métodos de almacenamiento de diferentes fabricantes. Esto significa que cada modelo de servidor de vídeo o placa de codificación tiene su propia versión de M-JPEG, por lo que la transmisión de datos entre servidores y la transmisión de datos desde la red de producción no lineal al servidor son simplemente imposibles.
(2) Estándares de la serie MPEG
MPEG es la abreviatura de Moving Picture Exports Group. Se estableció en 1988 para desarrollar estándares de compresión para video/audio digital. más de 300 miembros, entre ellos empresas de renombre mundial como IBM, SUN, BBC, NEC, INTEL, AT&T, etc. Inicialmente, la organización MPEG fue autorizada a desarrollar varios estándares para la codificación de "imágenes en movimiento", que luego se amplió para incluir "y el audio que los acompaña" y su codificación combinada. Más tarde, en respuesta a diferentes necesidades de aplicaciones, se levantó la restricción de "para medios de almacenamiento digital" y se convirtió en la organización que ahora formula estándares de "codificación de audio e imágenes en movimiento". Cada estándar formulado por la organización MPEG tiene diferentes objetivos y aplicaciones. Actualmente, se han propuesto los estándares MPEG-1, MPEG-2, MPEG-4, MPEG-7 y MPEG-21.
1. Estándar MPEG-1
El estándar MPEG-1 se anunció en agosto de 1993 y se utiliza para codificar imágenes en movimiento de medios de almacenamiento digital y los sonidos que las acompañan a una velocidad de transmisión de datos de 1,5 Mbps. El estándar consta de cinco partes:
La Parte 1 describe cómo realizar la codificación compuesta de audio y vídeo de acuerdo con las disposiciones de la Parte 2 (Vídeo) y la Parte 3 (Audio). La parte 4 describe el proceso para verificar que el flujo de bits de salida de un decodificador o codificador se ajusta a las disposiciones de las tres primeras partes. La quinta parte es un codificador y decodificador implementado en lenguaje C completo.
Desde el momento en que se promulgó el estándar, MPEG-1 ha logrado una serie de éxitos, como el uso generalizado de VCD y MP3. Windows 95 y versiones posteriores vienen con un decodificador de software MPEG-1. que son cámaras portátiles MPEG-1 y más.
2. Estándar MPEG-2
La organización MPEG lanzó el estándar de compresión MPEG-2 en 1994 para hacer realidad la posibilidad de interoperabilidad entre servicios y aplicaciones de vídeo/audio. El estándar MPEG-2 es una especificación detallada del esquema de compresión y la capa del sistema para televisión digital estándar y televisión de alta definición en diversas aplicaciones. La velocidad de codificación varía de 3 megabits a 100 megabits por segundo. La especificación formal del estándar se encuentra en. ISO/En IEC13818. MPEG-2 no es una simple actualización de MPEG-1. MPEG-2 ha realizado disposiciones más detalladas y mejoras adicionales en el sistema y la transmisión. MPEG-2 es particularmente adecuado para codificar y transmitir televisión digital a nivel de transmisión y está reconocido como el estándar de codificación para SDTV y HDTV.
El principio de la compresión de imágenes MPEG-2 es aprovechar dos características de las imágenes: correlación espacial y correlación temporal.
Estas dos correlaciones dan como resultado una gran cantidad de información redundante en la imagen. Si podemos eliminar esta información redundante y retener sólo una pequeña cantidad de información irrelevante para la transmisión, podemos ahorrar mucho ancho de banda de transmisión. El receptor utiliza esta información no correlacionada y sigue un determinado algoritmo de decodificación para restaurar la imagen original garantizando al mismo tiempo una determinada calidad de imagen. Un buen esquema de codificación de compresión es aquel que puede eliminar en la mayor medida posible información redundante en la imagen.
Las imágenes codificadas en MPEG-2 se dividen en tres categorías, denominadas fotogramas I, fotogramas P y fotogramas B.
La imagen de cuadro I adopta codificación intracuadro, es decir, solo se utiliza la correlación espacial dentro de una imagen de cuadro único, pero no se utiliza la correlación temporal. Las imágenes de fotograma P y fotograma B adoptan codificación entre fotogramas, que utiliza correlación tanto espacial como temporal. Las imágenes de cuadro P solo utilizan la predicción del tiempo de avance, lo que puede mejorar la eficiencia de la compresión y la calidad de la imagen. La imagen del cuadro P puede contener una parte de codificación intracuadro, es decir, cada macrobloque en el cuadro P puede predecirse hacia adelante o codificarse dentro del cuadro. Las imágenes de fotograma B utilizan predicción temporal bidireccional, lo que puede aumentar considerablemente el factor de compresión.
El flujo de codificación MPEG-2 se divide en seis niveles. Para representar mejor los datos codificados, MPEG-2 especifica una estructura jerárquica mediante sintaxis. Está dividido en seis capas, de arriba a abajo: capa de secuencia de imágenes, grupo de imágenes (GOP), imagen, tira de macrobloque, macrobloque y bloque.
Las principales aplicaciones del estándar MPEG-2 en el campo de la radio y la televisión son las siguientes:
(1) Almacenamiento de datos de vídeo y audio
Durante mucho tiempo, los programas de televisión, la información de audio y vídeo, etc., se almacenan en cintas. Este método tiene muchas desventajas: se daña fácilmente, ocupa mucho espacio, es costoso y difícil de reutilizar. Más importante aún, es difícil conservarlo durante mucho tiempo, encontrarlo y compartirlo. Con el desarrollo de la tecnología informática y la tecnología de compresión de vídeo, las redes informáticas de banda ancha de alta velocidad y los sistemas de almacenamiento de datos de gran capacidad han hecho posible el almacenamiento, la consulta, el intercambio y el intercambio en red de programas de estaciones de televisión.
Los discos de vídeo DVD que utilizan codificación de compresión MPEG-2 aportan nuevas esperanzas a la preservación de datos. Los programas de televisión, materiales de audio y vídeo, etc. pueden codificarse mediante el sistema de codificación MPEG-2 y guardarse en discos CD-R de bajo coste o en software de edición de DVD-RAM regrabable de alta capacidad (como Daikin Scenarist NT, Spruce). DVDMaestro) también se puede utilizar, etc.) en discos de vídeo DVD estándar, lo que puede ahorrar gastos y espacio de almacenamiento.
(2) Sistema de edición no lineal de programas de televisión y su red
En el sistema de edición no lineal, los materiales del programa se almacenan, producen y transmiten mediante un método de compresión digital. La tecnología de compresión de vídeo es la base técnica de los sistemas de edición no lineal. Actualmente, existen dos formatos principales de compresión digital: M-JPEG y MPEG-2.
La tecnología M-JPEG es una tecnología de compresión de imágenes fijas y en movimiento (o cuadro por cuadro) que puede realizar una edición con precisión de cuadro, pero la eficiencia de la compresión no es alta.
MPEG-2 utiliza compresión entre cuadros. Solo necesita realizar el procesamiento de compresión intracuadro de los cuadros I y P que se obtienen mediante detección. Procese entre cuadros. Se obtiene la correlación de tiempo. En términos relativos, la cantidad de datos es pequeña y se puede lograr una relación de compresión más alta. Con la resolución del problema de la edición cuadro por cuadro, MPEG-2 se utilizará ampliamente en sistemas de edición no lineal y reducirá en gran medida los costos de edición. Al mismo tiempo, la descompresión de MPEG-2 es estándar. Los dispositivos de diferentes fabricantes pueden ser comprimidos por otros fabricantes. Los fabricantes diseñan descompresores para descomprimir, lo que garantiza una compatibilidad total entre dispositivos de varios fabricantes.
Debido al uso de la tecnología de compresión de video MPEG-2 IBP, la cantidad de datos se duplica, lo que reduce los costos de almacenamiento, aumenta la velocidad de transmisión de datos y reduce la presión sobre los buses de computadora y el ancho de banda de la red. utilizado Se ha hecho posible establecer un sistema de red de edición no lineal y, en la actualidad, Ethernet es la red más madura, con una gestión del sistema relativamente completa y un precio relativamente bajo.
Los sistemas de edición no lineal y las redes de edición no lineal basadas en MPEG-2 se convertirán en la dirección de desarrollo futuro.
(3) Transmisión por satélite
MPEG-2 ha sido aprobado por ISO y se ha utilizado ampliamente en el campo de la transmisión, como la transmisión de video digital por satélite (DVB-S), DVD discos de vídeo y videoconferencias, etc.
Actualmente, hay decenas de millones de usuarios de DVB-S en todo el mundo. Las señales DVB-S están codificadas en formato de compresión MPEG-2, transmitidas a través de satélites o microondas y decodificadas por decodificadores receptores de satélite MPEG-2 en el extremo del usuario para su visualización. por los usuarios. Además, utilizando la tecnología de codificación por compresión MPEG-2, también se pueden realizar transmisiones e intercambios remotos de noticias o programas de televisión.
(4) Transmisión de programas de televisión
La transmisión es un eslabón de conexión en toda la tecnología de la televisión. Es muy necesaria la transformación digital del sistema de transmisión, el más crítico de los cuales es el. El primer paso es construir un sistema de transmisión en disco duro. El sistema de transmisión automática de disco duro MPEG-2 es el preferido por la gente debido a sus ventajas como edición y transmisión simples, gran capacidad de almacenamiento e indicadores de video altos. Sin embargo, en el pasado, los equipos de transmisión MPEG-2 sólo se utilizaban en pequeñas cantidades porque eran muy caros. Con el desarrollo de la tecnología MPEG-2 y la disminución del costo de los productos relacionados, se espera que la transmisión automática del sistema de disco duro MPEG-2 se vuelva popular.
3. Estándar MPEG-4
El Moving Picture Experts Group MPEG anunció oficialmente la primera versión del estándar MPEG-4 (ISO/IEC14496) en febrero de 1999. A finales del mismo año, se finalizó la segunda versión de MPEG-4 y se convirtió oficialmente en un estándar internacional a principios de 2000.
MPEG-4 es muy diferente de MPEG-1 y MPEG-2. MPEG-4 no es sólo un algoritmo de compresión específico, es un estándar internacional desarrollado para las necesidades de tecnologías de integración y compresión como la televisión digital, aplicaciones gráficas interactivas (contenidos de síntesis de audio y video), multimedia interactiva (WWW, adquisición y dispersión de datos). ), etc. El estándar MPEG-4 integra muchas aplicaciones multimedia en un marco completo, con el objetivo de proporcionar algoritmos y herramientas estándar para entornos de aplicaciones y comunicaciones multimedia, estableciendo así un sistema que pueda usarse ampliamente en transmisión, almacenamiento, recuperación y otros campos de aplicaciones multimedia unificados. formato de datos.
El concepto de codificación de MPEG-4 es: La diferencia más significativa entre el estándar MPEG-4 y los estándares anteriores es que adopta un concepto de codificación basado en objetos, es decir, al codificar, una escena se divide en varios tiempos y tiempos Los objetos de video y audio relacionados espacialmente se codifican por separado y luego se multiplexan y transmiten al extremo receptor, y luego los diferentes objetos se decodifican por separado para combinarlos en el video y audio requeridos. Esto no solo nos facilita el uso de diferentes métodos de codificación y métodos de representación para diferentes objetos, sino que también facilita la integración de diferentes tipos de datos. También facilita la operación y edición de varios objetos. Por ejemplo, podemos colocar un personaje de dibujos animados en una escena real o colocar a una persona real en un estudio virtual. También podemos interactuar fácilmente en Internet y combinar selectivamente varios contenidos de video, audio y video según nuestras necesidades. .
El marco general del sistema MPEG-4 es: representación de contenido audiovisual natural o sintético; gestión de flujos de datos de contenido audiovisual, como soporte multipunto, sincronización, gestión de buffer, etc.; para flexibilidad y configuración de diferentes partes del sistema.
En comparación con MPEG-1 y MPEG-2, MPEG-4 tiene las siguientes ventajas únicas:
(1) Interactividad basada en contenido
MPEG -4 proporciona herramientas de acceso a datos multimedia basadas en contenido, como indexación, hipervínculos, carga y descarga, eliminación, etc. Con estas herramientas, los usuarios pueden obtener fácil y selectivamente el contenido relacionado con objetos que necesitan de la base de datos multimedia y proporcionar funciones de manipulación de contenido y edición de flujo de bits, que se pueden aplicar a compras interactivas desde el hogar y efectos de digitalización de aparición y desaparición gradual. etc. MPEG-4 proporciona métodos eficientes de codificación de datos multimedia naturales o sintéticos. Puede combinar escenas u objetos naturales en datos multimedia sintéticos.
(2) Compresión eficiente
MPEG-4 se basa en una mayor eficiencia de codificación. En comparación con otros estándares existentes o futuros, se basa en una mayor calidad visual y auditiva a la misma velocidad de bits, lo que permite transmitir vídeo y audio en canales de bajo ancho de banda. Al mismo tiempo, MPEG-4 también puede codificar flujos de datos simultáneos. Los flujos de datos multivista o multicanal de una escena se pueden sintetizar de manera eficiente y sincrónica en el flujo de datos final.
Esto se puede utilizar para juegos virtuales en 3D, películas en 3D, ejercicios de simulación de vuelo, etc.
(3) Accesibilidad universal
MPEG-4 proporciona solidez en entornos propensos a errores para garantizar que se utiliza en muchas redes y medios de almacenamiento inalámbricos y cableados. Además, MPEG-4 también admite la escalabilidad basada en contenido, es decir, dividir el contenido, la calidad y la complejidad en muchas partes pequeñas para satisfacer las diferentes necesidades de los diferentes usuarios. Canales de transmisión y extremos receptores con diferentes anchos de banda y diferentes capacidades de almacenamiento.
Estas características sin duda acelerarán el desarrollo de aplicaciones multimedia, y los campos de aplicación que se benefician de ellas incluyen: aplicaciones multimedia de Internet; videojuegos interactivos en tiempo real; ; tecnología de estudio y postproducción de televisión; reuniones virtuales utilizando tecnología de animación facial; correos electrónicos multimedia en condiciones de comunicación móvil; servicios de bases de datos remotas a través de redes ATM; Las principales aplicaciones de MPEG-4 son las siguientes:
(1) Aplicación a transmisiones de vídeo y audio por Internet
A medida que el número de personas que navegan por Internet aumenta día a día, la audiencia de las transmisiones de televisión tradicionales disminuye gradualmente, y lo que sigue es que los ingresos por publicidad disminuyen, por lo que las transmisiones de televisión fija actuales eventualmente cambiarán a transmisiones por Internet basadas en TCP/IP, y los métodos de visualización de los espectadores también cambiarán de una simple selección de canales por control remoto a videos en línea en demanda. El concepto de vídeo bajo demanda no es descargar primero el programa al disco duro y luego reproducirlo, sino transmitir el vídeo (streaming video), verlo con un clic y reproducirlo mientras se transmite.
Hoy en día se reproducen vídeo y audio en Internet: Real Media de Real Networks, Windows Media de Microsoft y QuickTime de Apple. Los formatos de vídeo y audio definidos por ellos son incompatibles entre sí, lo que puede ocurrir. Causa que la transmisión de medios se interrumpa Un caos incontrolable, y MPEG-4 proporciona una serie de herramientas estándar para que las aplicaciones de video de Internet hagan que la transmisión de código de video y audio sea estandarizada y consistente. Por tanto, cabe decir que MPEG-4 es una opción segura para reproducir vídeo y audio en Internet.
(2) Aplicación a las comunicaciones inalámbricas
La eficiente compresión de velocidad de código, la interacción y las características jerárquicas de MPEG-4 son especialmente adecuadas para realizar comunicaciones multimedia en redes móviles de banda estrecha. Los teléfonos se convertirán en un receptor móvil multimedia, que no solo puede realizar llamadas de televisión móvil y acceso a Internet móvil, sino que también puede recibir transmisiones multimedia móviles y mirar televisión.
(3) Aplicación para la compresión de imágenes fijas
Las imágenes fijas (imágenes) se utilizan ampliamente en Internet. Hoy en día, la tecnología JPEG se utiliza principalmente para la compresión de imágenes en Internet. La compresión de imágenes fijas (textura) en MPEG-4 se basa en la transformación wavelet. En las mismas condiciones de calidad, el tamaño del archivo comprimido es aproximadamente una décima parte del archivo comprimido JPEG. La conversión de imágenes JPEG utilizadas en Internet al formato MPEG-4 puede mejorar enormemente la velocidad de transmisión de imágenes en la red.
(4) Aplicación a la videotelefonía
Los estándares de codificación de compresión tradicionales para servicios de videotelefonía de banda estrecha, como H261, utilizan compresión intracuadro, compresión intercuadro, reducción de píxeles y abstracción. Se utilizan fotogramas y otros métodos para reducir la velocidad de bits, pero la eficiencia de la codificación y la calidad de la imagen no son satisfactorias. La codificación de compresión de MPEG-4 puede transmitir señales de audio y vídeo con una calidad aceptable a una velocidad de bits muy baja, de modo que los servicios de videoteléfono se pueden implementar en redes telefónicas públicas de banda estrecha.
(5) Aplicación a gráficos, animación y simulación por computadora
El método de codificación especial de MPEG-4 y sus poderosas capacidades interactivas hacen posible la obtención de materiales de gráficos por computadora y animación basados en MPEG-4. bases de datos multimedia de diversas fuentes y combinar los resultados requeridos en tiempo real. Por lo tanto, los gráficos por computadora del futuro podrán desarrollarse infinitamente en la dirección deseada dentro del alcance permitido por la sintaxis MPEG-4, produciendo efectos de animación y simulación que son inimaginables hoy en día.
(6) Aplicado a juegos electrónicos
MPEG-4 puede realizar una codificación mixta de imágenes y sonidos naturales con imágenes y sonidos sintetizados artificialmente, y tiene una flexibilidad sin precedentes en los métodos de codificación. Puede llamar materiales de bases de datos multimedia de diversas fuentes de manera oportuna. Esto puede producir videojuegos como películas en el futuro, permitiendo operaciones interactivas con un alto grado de libertad.
(3) H.264
H.264 es una empresa conjunta entre el VCEG (Grupo de expertos en codificación de vídeo) de ITU-T y el MPEG (Grupo de expertos en codificación de imágenes en movimiento) de ISO/IEC. Un nuevo estándar de codificación de vídeo digital desarrollado por Joint Video Team (JVT). Es tanto el H.264 de ITU-T como la Parte 10 de MPEG-4 de ISO/IEC. La recopilación de borradores comenzó en enero de 1998 y el primer borrador se completó en septiembre de 1999. Su modo de prueba TML-8 se formuló en mayo de 2001. La quinta reunión de JVT en junio de 2002 aprobó la placa H.264 FCD. Publicado oficialmente en marzo de 2003.
H.264, al igual que los estándares anteriores, también es un modo de codificación híbrido de DPCM más codificación por transformación. Sin embargo, adopta un diseño simple que vuelve a lo básico sin usar muchas opciones y logra un rendimiento de compresión mucho mejor que H.263 ++; fortalece su adaptabilidad a varios canales, adopta una estructura y sintaxis amigables con la red y es propicio para la comunicación; corrección de errores de procesamiento de pérdida de códigos y paquetes; el rango de objetivos de la aplicación es amplio para satisfacer las necesidades de diferentes velocidades, diferentes resoluciones y diferentes ocasiones de transmisión (almacenamiento) su sistema básico es abierto y no se requieren derechos de autor para su uso;
Técnicamente, hay muchos puntos brillantes en el estándar H.264, como la codificación de símbolos VLC unificada, la estimación de desplazamiento multimodo de alta precisión, la transformación de enteros y la estratificación basada en bloques 4×4. sintaxis, etc Estas medidas hacen que el algoritmo H.264 tenga una eficiencia de codificación muy alta y pueda ahorrar alrededor del 50% de la velocidad de bits que H.263 con la misma calidad de imagen reconstruida. La estructura del flujo de código de H.264 tiene una gran adaptabilidad de la red, aumenta las capacidades de recuperación de errores y puede adaptarse bien a aplicaciones de redes IP e inalámbricas. El algoritmo H.264 se puede dividir conceptualmente en dos capas: la Capa de codificación de video (VCL: Capa de codificación de video) es responsable de la representación eficiente del contenido de video y la Capa de abstracción de red (NAL: Capa de abstracción de red) es responsable del método apropiado. requerido por la red. Se define una interfaz basada en paquetes entre VCL y NAL. El empaquetado y la señalización correspondiente son parte de NAL. De esta manera, VCL y NAL completan las tareas de alta eficiencia de codificación y facilidad de uso de la red, respectivamente.
La capa VCL incluye codificación híbrida con compensación de movimiento basada en bloques y algunas características nuevas. Al igual que los estándares de codificación de vídeo anteriores, H.264 no incluye funciones de preprocesamiento y posprocesamiento en el borrador, lo que puede aumentar la flexibilidad del estándar.
NAL se encarga de encapsular datos utilizando el formato segmentado de la red subyacente, incluido el encuadre, la señalización de canales lógicos, la utilización de información de temporización o señales de fin de secuencia, etc. Por ejemplo, NAL admite formatos de transmisión de vídeo en canales de conmutación de circuitos y formatos de transmisión de vídeo en Internet mediante RTP/UDP/IP. NAL incluye su propia información de encabezado, información de estructura de segmento e información de carga real, es decir, los datos VCL superiores. (Si se utilizan técnicas de segmentación de datos, los datos pueden constar de varias partes). H.264 admite vectores de movimiento con una precisión de 1/4 o 1/8 de píxel. Se puede usar un filtro de 6 toques para reducir el ruido de alta frecuencia con una precisión de 1/4 de píxel, y se puede usar un filtro de 8 toques más complejo para vectores de movimiento con una precisión de 1/8 de píxel. Al realizar la estimación de movimiento, el codificador también puede optar por mejorar el filtro de interpolación para mejorar el efecto de predicción.
En la predicción de movimiento H.264, un macrobloque (MB) se puede dividir en diferentes subbloques según la Figura 2, formando 7 modos diferentes de tamaños de bloque. Esta división multimodal, flexible y detallada está más en línea con la forma de los objetos en movimiento reales en la imagen, lo que mejora en gran medida la precisión de la estimación del movimiento. De esta forma, cada macrobloque puede contener 1, 2, 4, 8 o 16 vectores de movimiento.
En H.264, el codificador puede utilizar más de un cuadro anterior para la estimación del movimiento, que es la llamada tecnología de referencia de cuadros múltiples. Por ejemplo, si hay 2 o 3 cuadros de cuadros de referencia que se acaban de codificar, el codificador seleccionará el cuadro mejor predicho para cada macrobloque objetivo e indicará qué cuadro se usa para la predicción para cada macrobloque. H.264 es similar al estándar anterior, utiliza codificación de transformación basada en bloques para el residual, pero la transformación es una operación de número entero en lugar de una operación de número real, y su proceso es básicamente similar a DCT.
La ventaja de este método es que permite transformaciones y transformaciones inversas con la misma precisión en el codificador y decodificador, y facilita el uso de aritmética simple de punto fijo. Es decir, aquí no hay ningún error de transformación inversa. La unidad de transformación son bloques de 4×4, no los bloques de 8×8 que se usaban comúnmente en el pasado. Dado que se reduce el tamaño del bloque de transformación, la división de los objetos en movimiento es más precisa. De esta manera, no solo la cantidad de cálculo de transformación es menor, sino que también se reduce considerablemente el error de conexión en el borde del objeto en movimiento. Para garantizar que el método de transformación de bloques de tamaño pequeño no produzca diferencias en escala de grises entre bloques para áreas suaves más grandes en la imagen, los coeficientes DC de los 16 bloques de 4 × 4 de los datos de brillo del macrobloque dentro del cuadro (cada bloque pequeño uno , ***16) realiza la segunda transformación de bloque 4×4 y realiza 2×2 en los coeficientes DC de los cuatro bloques 4×4 de los datos cromáticos (uno para cada bloque pequeño, ***4) Transformación de bloque.
Para mejorar la capacidad de control de la velocidad de código de H.264, el cambio en el tamaño del paso de cuantificación se controla en aproximadamente un 12,5%, en lugar de cambiar en un aumento constante. La normalización de las amplitudes de los coeficientes de transformación se maneja en el proceso de cuantificación inversa para reducir la complejidad computacional. Para enfatizar la fidelidad del color, se utiliza un paso de cuantificación más pequeño para los coeficientes cromáticos. En los estándares anteriores de la serie H.26x y la serie MPEG-x, se adoptó el método de predicción entre cuadros. En H.264, la predicción intra está disponible al codificar imágenes intra. Para cada bloque de 4 × 4 (excepto para el tratamiento especial de los bloques de borde), cada píxel se puede predecir mediante una suma ponderada diferente de los 17 píxeles codificados previamente más cercanos (algunos pesos pueden ser 0), es decir, este píxel Los 17 píxeles desde la esquina superior izquierda del bloque. Obviamente, esta predicción intracuadro no es un algoritmo de codificación predictivo realizado en el tiempo sino en el dominio espacial, que puede eliminar la redundancia espacial entre bloques adyacentes y lograr una compresión más efectiva.
Como se muestra en la Figura 4, a, b,..., p en el cuadrado de 4 × 4 son 16 píxeles para predecir, y A, B,..., P son píxeles codificados. Por ejemplo, el valor del punto m se puede predecir mediante la fórmula (J+2K+L+2)/4, o se puede predecir mediante (A+B+C+D+I+J+K+L)/8. fórmula, etc. Según el punto de referencia de predicción seleccionado, hay 9 modos diferentes para el brillo, pero solo hay 4 modos para la predicción de croma dentro del cuadro. El borrador H.264 incluye herramientas para la eliminación de errores para facilitar la solidez de la transmisión de video comprimido en entornos propensos a errores de bits y pérdida de paquetes, como canales móviles o canales IP.
Para resistir errores de transmisión, la sincronización temporal en transmisiones de video H.264 se puede lograr mediante el uso de actualización de imagen dentro del cuadro, y la sincronización espacial es compatible con codificación estructurada por sectores. Al mismo tiempo, para facilitar la resincronización después de un error de bit, también se proporciona un cierto punto de resincronización en los datos de vídeo de una imagen. Además, la actualización de macrobloques dentro de la trama y los múltiples macrobloques de referencia permiten al codificador considerar no sólo la eficiencia de codificación sino también las características del canal de transmisión al decidir el modo de macrobloque.
Además de utilizar cambios en el tamaño del paso de cuantificación para adaptarse a la velocidad del código del canal, en H.264, el método de segmentación de datos se utiliza a menudo para hacer frente a los cambios en la velocidad del código del canal. En términos generales, el concepto de segmentación de datos es generar datos de video con diferentes prioridades en el codificador para respaldar la calidad de servicio QoS en la red. Por ejemplo, el método de partición de datos basado en sintaxis se utiliza para dividir cada cuadro de datos en varias partes según su importancia, lo que permite descartar información menos importante cuando el búfer se desborda. También se puede utilizar un enfoque similar de partición de datos temporales, utilizando múltiples marcos de referencia en marcos P y B.
En aplicaciones de comunicación inalámbrica, podemos admitir grandes cambios de velocidad de bits en canales inalámbricos cambiando la precisión de cuantificación o la resolución espacial/temporal de cada cuadro. Sin embargo, en el caso de multidifusión, es imposible exigir que el codificador responda a diversas velocidades de bits cambiantes. Por lo tanto, a diferencia del método de escalabilidad granular fina (FGS) utilizado en MPEG-4 (que es menos eficiente), H.264 utiliza tramas SP de conmutación de flujo en lugar de codificación jerárquica.
IV. Comparación de rendimiento de H.264
TML-8 es el modo de prueba de H.264. Úselo para comparar y probar la eficiencia de codificación de video de H.264.
El PSNR proporcionado por los resultados de la prueba muestra claramente que, en comparación con el rendimiento de MPEG-4 (ASP: Advanced Simple Profile) y H.263++ (HLP: High Latency Profile), los resultados de H.264 son obviamente superiores.
El PSNR de H.264 es significativamente mejor que MPEG-4 (ASP) y H.263++ (HLP). En la prueba de comparación de 6 velocidades, el PSNR de H.264 es mejor que. MPEG-4 (ASP) es 2 dB más alto en promedio y 3 dB más alto que H.263 (HLP) en promedio. Las seis velocidades de prueba y sus condiciones relacionadas son: velocidad de 32 kbit/s, velocidad de cuadros de 10 f/s y formato QCIF; velocidad de 64 kbit/s, velocidad de cuadros de 15 f/s y formato QCIF, velocidad de cuadros de 15 f/s; y formato CIF; velocidad de 256 kbit/s, velocidad de fotogramas de 15 f/s y formato QCIF; velocidad de 512 kbit/s, velocidad de fotogramas de 30 f/s y formato CIF;