Red de conocimiento informático - Conocimiento informático - Propagación de transparencia en capas

Propagación de transparencia en capas

/Yaoyi-Li/HOP-Matting

/eval_25_highres.php

Resumen: En los últimos años, las redes profundas han logrado un gran éxito en el campo de los tapetes. En comparación con los métodos tradicionales de codificación basados ​​en la propagación, algunas de las principales redes profundas prefieren la propagación implícita a través de redes neuronales. Necesitamos una nueva estructura que propague la supresión alfa más directamente entre píxeles. Por lo tanto, en este artículo proponemos un método de mateado jerárquico para la propagación de transparencia, que propaga información de transparencia en diferentes niveles semánticos en el dominio de cada punto. La estructura jerárquica se basa en bloques de propagación locales globales y múltiples. Usando la estructura HOP, cada par de puntos característicos del mapa de características de alta resolución se conecta en función de la apariencia (apariencia) de la imagen. Para abordar el problema de variación de tamaño de la imagen de entrada, proponemos además un algoritmo de codificación de posición de pasivación de escala y una técnica de mejora de datos de interpolación aleatoria para la codificación. Amplios experimentos y estudios redundantes muestran que nuestro método funciona mejor que los métodos más modernos.

Palabras clave: incrustación, propagación en capas, transformación en capas

1. Introducción

La incrustación separa los objetos del primer plano del fondo. Trata la imagen como una imagen compuesta. estima la transparencia del objeto de primer plano y genera una supresión alfa que representa la transformación del primer plano y el fondo en cada píxel:

,

donde "Primer plano" se refiere al Alfa. mate a estimar en esa ubicación. La definición original de codificación todavía adolece de problemas mal definidos. Por lo tanto, en la gran mayoría de las tareas de clave, el mapa ternario (Figura 1 (b)) es una anotación aproximada de la entrada, que representa el primer plano conocido, las áreas de fondo y las áreas inciertas que se van a predecir.

Los algoritmos de incrustación tradicionales basados ​​en propagación propagan la transparencia entre píxeles basándose en similitudes en la apariencia de la imagen para producir un mate alfa. Algunas redes profundas explotan este sesgo inductivo para mejorar la eficiencia. AdamMatting. Debido a la estructura HOP, nuestra red utiliza bloques HOP globales para aprender la transparencia contextual en funciones de baja resolución con información semántica sólida, y bloques HOP locales para refinar los artefactos borrosos en funciones de alta resolución. La Figura 1 muestra los resultados de nuestro método frente a tres métodos de última generación en imágenes del mundo real. Además de la estructura HOP, también proponemos un método de codificación de posición de pasivación de escala para eliminar la variación en el tamaño de la imagen de entrada, que se basa en el método de codificación de posición relativa propuesto en. También proponemos la interpolación estocástica para el aumento de datos para mejorar aún más el rendimiento.

Específicamente, nuestro método se diferencia de los métodos anteriores de codificación de aprendizaje profundo en los siguientes aspectos:

(1).

(1) Nosotros: una transferencia jerárquica novedosa Se propone el resultado, que utiliza una serie de bloques HOP globales y locales para propagar información utilizando información de perspectiva y apariencia en diferentes niveles semánticos.

(2). Utilice el método de interpolación aleatoria para ampliar los datos en el proceso de capacitación. Los experimentos muestran que esto traerá mejoras significativas.

(3). Los experimentos en los conjuntos de datos de Composition-1k y alphamatting.com muestran que nuestro método es competitivo con los métodos de última generación.

2. Trabajo relacionado

La mayoría de los métodos de mateado se pueden dividir aproximadamente en métodos basados ​​en propagación, métodos basados ​​en muestreo y métodos basados ​​en aprendizaje. Esta sección revisa algunos métodos de aprendizaje profundo que son muy relevantes para nuestro trabajo.

Un enfoque general basado en el aprendizaje profundo es predecir directamente la extinción alfa dada una imagen y un mapa de tres colores primarios. , La Autoatención Local o los mecanismos de atención tradicionales son diferentes. En la autoatención, las consultas, las claves y los valores se calculan en función de las mismas características, mientras que en los mecanismos de atención tradicionales, las claves y los valores provienen del mismo lugar. Sin embargo, dentro del bloque HOP, la consulta y la palabra clave comparten las mismas características de apariencia, mientras que el valor usa la característica de transparencia.

De manera similar, podemos construir un bloque HOP local que solo se centre en los campos locales de cada elemento característico:

donde el tamaño de la ventana del campo es el tamaño de la ventana de la posición del elemento. .

En nuestro gráfico de propagación, cada nodo tiene dos características distintas: transparencia y apariencia. Las características de apariencia solo se utilizan para generar los pesos de los bordes conectados del gráfico, mientras que las características de transparencia son la información propagada real. En el estudio de redundancia, compararemos el rendimiento de los bloques HOP con la autoatención global y local.

Como se muestra en la Figura 2(b), construimos una estructura de propagación de transparencia jerárquica utilizando bloques HOP para estimar la supresión alfa. El esquema omite la convolución transpuesta entre bloques HOP para mostrar cómo se propaga jerárquicamente la información de transparencia. El bloque HOP global inferior realiza una propagación de transparencia global en el mapa de características desde el cuello de botella, donde el mapa de características contiene más información semántica y menos información de textura. Intuitivamente, la propagación global de características semánticas consiste en explotar toda la información de la imagen completa. Luego, los bloques HOP locales se insertan en la red entre diferentes etapas de convolución transpuesta, ya que los mapas de características de alta resolución contienen más información de textura. Por lo tanto, utilizar bloques HOP locales para centrarse únicamente en el dominio de cada ubicación de consulta para extraer información de textura encaja bien con nuestra motivación. A través de nuestra estructura HOP, la información de transparencia se propaga en diferentes capas de características, desde características semánticas hasta características de textura, y desde baja resolución hasta alta resolución.

Además, nuestra estructura HOP propuesta se puede ver como una red convolucional de gráficos de 4 capas que muestra que el mecanismo de autoatención que utiliza codificación posicional siempre conduce a mejoras. Esta sección describe cómo nuestro enfoque utiliza la codificación posicional. Utilizamos dos métodos de codificación de posición diferentes: codificación de posición insensible a la escala en bloques HOP globales y codificación de posición relativa local en bloques HOP locales. La Figura 4 muestra un diagrama esquemático de diferentes codificaciones posicionales.

Codificación sinusoidal en codificación posicional insensible a la escala En la implementación real, el valor de la codificación sinusoidal es 7. Además de la incrustación de posición, también diseñamos una incrustación de tres gráficos para comprender si el primer plano, el fondo y las regiones desconocidas tienen diferentes pesos de atención.

Por lo tanto, la fórmula se modifica a , donde la posición se obtiene escalando el trimap de más de un punto de datos.

Codificación de posición relativa local Los bloques HOP locales con tamaños de dominio fijos no requieren codificación de posición insensible a la escala. No proponemos un método de codificación de posición relativa local completamente nuevo, sino que las codificaciones de posición que utilizamos en el mate son invariantes en la dirección, lo que significa que las incrustaciones solo varían a lo largo de la fila o entre las posiciones de consulta y mate relacionadas con la distancia absoluta. entre columnas. Esta propiedad se debe al hecho de que la codificación es más bien una tarea visual de bajo nivel con menos semántica y, por lo tanto, debe ser independiente de la rotación.

3.3 Función de pérdida y detalles de implementación

Nuestro entrenamiento de red solo utiliza la matriz alfa para construir la función de pérdida, que es el valor verdadero absoluto de la diferencia entre el valor estimado y el verdadero. valor:

?

¿dónde está la mate alfa estimada en esta ubicación, es el valor verdadero correspondiente y es el número de píxeles en el área desconocida del mapa de recorte?

Seleccionamos los primeros 11 bloques de ResNet-34 [15] previamente entrenados en ImageNet [34] como la columna vertebral del codificador de transparencia. La columna vertebral del codificador de apariencia selecciona algunas capas convolucionales progresivas apiladas para extraer más información de características de bajo nivel. Los datos de entrenamiento se sintetizan a partir de los datos de primer plano de Adobe Image Matting [45] y los datos de fondo de MS COCO [26]. Utilizamos el método básico de aumento de datos introducido en [25]. La fase de entrenamiento se normaliza mediante normalización por lotes [20] y normalización en el dominio de frecuencia (normalización espectral) [31]. Utilice el optimizador Adam [21]. Entrenado con precisión FP de 16 bits [16].

Se utilizan estrategias de ajuste de la tasa de aprendizaje de calentamiento [12] y caída del coseno [28].

4 Experimentos

Realizamos una gran cantidad de experimentos y estudios redundantes. Informamos los resultados de dos conjuntos de datos ampliamente utilizados: el conjunto de pruebas Composition-1k y el conjunto de datos alphamatting.com [33]. Las métricas de evaluación incluyen error cuadrático medio (MSE), suma de diferencias absolutas (SAD), error de gradiente (Grad) y error de conectividad (Conn), como se describe en [33]. También visualizamos mapas de atención en estructuras HOP para comprender mejor cómo funcionan.

4.1 Aumento de datos por interpolación aleatoria

Según la experiencia, la eficacia de la incrustación de profundidad se ve fácilmente afectada por el tamaño de la imagen. Esto se debe a que los métodos de incrustación típicos se centran en información detallada de la textura de la imagen, mientras que el cambio de tamaño de la imagen difumina los bordes o la información de alta frecuencia, lo que resulta en una degradación del rendimiento. Por lo tanto, la mayoría de los métodos de incrustación evalúan la imagen original sin utilizar ninguna operación de cambio de tamaño. En Context-aware Matting [18], los autores señalaron que diferentes formatos de imagen para primer plano y fondo pueden generar ligeros artefactos, que ayudan a la red a distinguir entre primer plano y fondo. En esta sección, también presentamos algunos hallazgos nuevos de que los métodos de claves basados ​​en redes profundas son sensibles a las operaciones de interpolación, e introducimos el aumento de datos de interpolación aleatoria en nuestro método.

Demostramos experimentalmente este hallazgo en el conjunto de pruebas Composition-1k [45]. Primero, aumentamos la escala de la imagen RGB en un factor de 1,5 usando el algoritmo de interpolación seleccionado y luego reducimos la imagen a su tamaño original usando el mismo algoritmo de interpolación. Por ejemplo, suponiendo que el tamaño de la imagen es 800 × 800 y el algoritmo de interpolación seleccionado es la interpolación bilineal, primero usamos la interpolación bilineal para ampliar la imagen a 1200 × 1200 y luego usamos la interpolación bilineal para reducir la imagen a 800 × 800. Vale la pena señalar que no nos alejamos primero y luego nos acercamos, porque alejarnos primero hará que se pierda más información.

Los resultados de la evaluación se muestran en la Tabla 1. También comparamos los errores antes y después de la escala de verdad básica como referencia. El error antes y después del escalado del valor verdadero se refiere a escalar directamente el valor verdadero sin utilizar el razonamiento de red y calcular el error entre el valor verdadero después del escalado y el valor verdadero antes del escalado. HOP-5 × 5 es nuestro modelo de referencia, lo que significa que el tamaño de vecindad de los bloques HOP locales es 5 × 5, y no se utiliza codificación de posición ni incrustación de trimap en los bloques HOP. Como puede verse en la Tabla 1, la brecha entre diferentes pruebas de interpolación es mayor que el límite inferior. En otras palabras, los errores causados ​​por diferentes algoritmos de interpolación son mayores que la propia interpolación. También se puede ver que la brecha entre la interpolación bilineal y cúbica para la codificación HOP-5 × 5 es mayor que la brecha entre la interpolación bilineal y cúbica para la codificación IndexNet. Nuestra explicación es que durante el aumento de datos en la fase de entrenamiento, escalamos la imagen de fondo al mismo tamaño que la imagen de primer plano utilizando interpolación cúbica como lo recomienda DeepMatting [45]. Esto hace que nuestro método funcione mejor con la interpolación cúbica en la fase de prueba.

Con base en los resultados de investigaciones anteriores, proponemos utilizar un aumento de datos por interpolación aleatoria en nuestro método. Durante el preprocesamiento de datos en la fase de entrenamiento, seleccionamos aleatoriamente un algoritmo de interpolación con igual probabilidad para cualquier operación de interpolación. Por lo tanto, dentro de un pequeño lote de entrenamiento, se pueden generar imágenes sintéticas mediante diferentes algoritmos de interpolación. Además, las imágenes de primer plano, fondo y mate alfa se pueden escalar utilizando diferentes algoritmos de interpolación antes de la composición. Como se muestra en la Tabla 1, el entrenamiento aumentado con datos interpolados aleatoriamente no solo mejora el rendimiento sino que también cierra la brecha entre la interpolación bilineal y cúbica.

4.2 Resultados en el conjunto de prueba Composition-1k

El conjunto de prueba Composition-1k [45] contiene 1000 imágenes compuestas de 50 primeros planos diferentes.

Comparamos nuestro método con métodos de última generación y los resultados se muestran en la Tabla 2. Sin HOP RI significa que la red troncal no tiene bloques HOP y está entrenada mediante aumento de datos de interpolación aleatoria. Las diferentes versiones de nuestro método superan a los métodos más modernos. La Figura 5 muestra algunos resultados cualitativos en el conjunto de pruebas Composition-1k. Los resultados de DeepMatting [45] provienen del código fuente y de los modelos previamente entrenados proporcionados por IndexNet [29].

Además, comparamos el número de parámetros y la velocidad del modelo con algunos modelos de última generación en la Tabla 4. Evaluamos el tiempo de inferencia promedio de la GPU NVIDIA RTX 2080 Ti en cada imagen en el conjunto de prueba Composition-1k. Tenga en cuenta que Context-aware Matting y DeepMatting requieren más de 11 G de GPU para estimar la mate alfa de las imágenes de alta resolución en el conjunto de prueba Composition-1k.

4.3 Resultados en el conjunto de datos de Alphamatting.com

El conjunto de datos de Alphamatting.com contiene 8 imágenes de prueba para una evaluación comparativa en línea. La Tabla 3 muestra la clasificación promedio de nuestro método en alphamatting.com. La clasificación general es el promedio de las clasificaciones resultantes de las 3 capturas de pantalla para cada métrica de evaluación. Como se muestra en la Tabla 3, nuestro HOP Matting supera a otros métodos de última generación según diferentes métricas de evaluación.

4.4 Estudio de redundancia

Para verificar si los distintos componentes de la red son útiles, realizamos 3 experimentos diferentes en el conjunto de pruebas Composition-1k. Primero procesamos de forma desredundante diferentes bloques HOP para evaluar el modelo HOP-5 × 5. De los resultados de la Tabla 5, se puede ver que la estructura de propagación de transparencia en capas mejora el rendimiento de la codificación. La autoatención global y local se refiere al método de reemplazar el HOP global con autoatención global y reemplazar el HOP local con autoatención local. En un segundo estudio de redundancia, demostramos el efecto del aumento de datos utilizando codificación posicional, incrustación de trimap e interpolación aleatoria en nuestro enfoque. La Tabla 6 enumera los resultados cuantitativos evaluados en el conjunto de pruebas Composition-1k [45]. En el material complementario, también informamos resultados para diferentes tamaños de ventanas de vecindarios.

4.5 Visualización de la estructura HOP

La visualización del mapa de atención de la estructura HOP ayuda a comprender cómo la información de transparencia se propaga jerárquicamente en nuestro método. Hacemos esto visualizando el enfoque del modelo a través de un mapa de gradiente en la imagen de entrada. Seleccionamos aleatoriamente un píxel en la región desconocida de mate alfa prevista. Luego a este píxel se le asigna una gran pérdida y se supone que todos los demás píxeles predichos son completamente correctos sin ninguna pérdida. Luego se realiza la retropropagación para propagar el degradado a la imagen de entrada. El gráfico de gradiente muestra la relación entre cada píxel de la imagen de entrada y el píxel alfa mate seleccionado en la predicción. La Figura 6 muestra el mapa de gradiente de una imagen del conjunto de pruebas Composition-1k [45]. Los resultados sin bloques HOP provienen del modelo que entrenamos para el estudio de redundancia en la Tabla 5. Como se muestra en la Figura 6, el modelo con bloques HOP resume la información de toda la imagen y puede prestar más atención a áreas con apariencia similar, mientras que el modelo sin bloques HOP presta más atención a las áreas locales alrededor del punto de predicción seleccionado.

5. Conclusión y trabajo futuro

Este artículo propone un método de propagación de transparencia jerárquica para recortar imágenes, utilizando bloques HOP locales y bloques HOP globales para lograr la transparencia de los mapas de características en diferentes Niveles semánticos. Difusión de la información. Los resultados experimentales demuestran la superioridad de este método.

Además, los estudios de redundancia demuestran la utilidad de nuestras técnicas de codificación posicional y aumento de datos de interpolación aleatoria. Teniendo en cuenta el éxito de las redes de atención totalmente conectadas [32], la investigación futura sobre redes de bloques HOP totalmente conectadas es prometedora. Otro trabajo futuro interesante es una red híbrida que apila bloques HOP locales y bloques totalmente convolucionales.