Finalización profunda de una única imagen RGB-D
Finalización profunda de una única imagen RGB-D
Página de inicio: pletion.cs.princeton.edu/
Github: /yindaz/DeepCompletionRelease
Documento: pletion.cs.princeton.edu/paper.pdf
Objetivo: completar el canal de profundidad de
una imagen RGB-D
Problema: las cámaras de profundidad de uso común a menudo no detectan la profundidad de superficies brillantes, brillantes, transparentes y distantes.
Método: toma una imagen RGB como entrada y predice normales de superficie densa y límites de oclusión. Luego, las predicciones se combinan con observaciones de profundidad sin procesar proporcionadas por la cámara RGB-D para resolver las profundidades de todos los píxeles, incluidos los que faltan en la observación original.
Objetivo: completar el canal de profundidad de
una imagen RGB-D capturada con una cámara comercial (es decir, llenar todos los agujeros) para llenar los espacios en el mapa de profundidad
El método anterior de pintura en profundidad (reparación en profundidad) utilizaba ajustes manuales (manuales). ajuste) para resolver el problema, este método llena los huecos extrapolando superficies límite y síntesis de imágenes de Markov.
Se han utilizado redes profundas para la estimación de profundidad, pero aún no se han utilizado para completar la profundidad debido a las siguientes dificultades:
p>
Para imágenes RGB-D capturadas combinadas con mapas de profundidad completos, estos datos de entrenamiento a gran escala no son fáciles de obtener
Dicha estimación de profundidad solo puede reproducir la profundidad observada , pero no puede estimar la profundidad no observada. Información
Este artículo presenta un nuevo conjunto de datos de 105.432 imágenes RGB-D correspondientes a imágenes de profundidad completa calculadas a partir de reconstrucciones de superficies a gran escala en 72 entornos reales.
Representación de profundidad
El uso directo de FCN para hacer una regresión de la profundidad no funciona, especialmente para un área faltante tan grande en la Figura 1, porque incluso para los humanos, es difícil estimar la profundidad precisa a partir de una imagen en color de un solo ojo.
Por lo tanto, este artículo utiliza primero la red para predecir los atributos diferenciales locales de profundidad: normales de superficie y límites de oclusión.
Nadie ha entrenado nunca una red de extremo a extremo para completar profundidad de imágenes RGB-D
Una idea es expandir el color anterior a la red de profundidad, pero
¿A qué se refiere exactamente la desalineación aquí? ¿Existe una desalineación de la posición espacial? Píxeles con información de color.
¿No necesariamente información detallada?
Este artículo solo utiliza imágenes en color como entrada y primero predice las normales de superficie locales y los límites de oclusión con supervisión, porque las redes profundas pueden predecir características locales a partir de información de color. Luego complete la profundidad a través de un problema de optimización global que combina estas predicciones con la profundidad de entrada
Información principal
Beneficios: esto da como resultado un error relativo más pequeño y la red es independiente de la profundidad observada y no ¿No es necesario volver a entrenar debido a los nuevos sensores de profundidad
estimación de profundidad a partir de una imagen monocular en color
Forma a partir del desenfoque
Otros
-Métodos antiguos
Codificador automático
GAN
Los métodos anteriores no estudiaron la pintura de imágenes de profundidad porque las imágenes de profundidad carecen de características sólidas y de gran tamaño. escalar datos de entrenamiento, este es un problema difícil
Campos aleatorios de Markov
Forma a partir de sombreado
Segmentación
Métodos de diccionario p>
Aunque se pueden utilizar algunos métodos para completar en profundidad, el enfoque de los dos es diferente.
Otro trabajo ha estudiado la reconstrucción en profundidad de imágenes en color mejoradas con conjuntos dispersos de mediciones de profundidad.
Sin embargo, la motivación de esta investigación es reducir el costo de la detección en ciertas configuraciones (como ahorrar el costo de los robots), en lugar de completar la profundidad.
Correspondiente a las tres dificultades Como se menciona en la introducción, la investigación de este artículo también se centra en los siguientes tres temas:
Pero este método es costoso y requiere mucho tiempo, y este tipo de conjunto de datos públicos solo contiene una pequeña cantidad de escenas interiores
por ejemplo: Matterport3D
¡Esto le brinda un conjunto de datos que contiene pares de imágenes RGB-D y D*!
Pregunta: ¿La combinación de imágenes RGB-D multivista requiere registro entre imágenes? ¿Este proceso de obtención de malla se basa en el conjunto de datos original? Las reconstrucciones de superficies globales son conjuntos de datos existentes
Ver
Dado que las reconstrucciones de superficies se construyen con un tamaño de malla 3D comparable a la resolución de la cámara de profundidad, normalmente se encuentran en la imagen de profundidad completa. Sin pérdida de resolución. Sin embargo, cuando se proyecta en el plano de visualización, la misma resolución 3D proporciona una resolución de píxeles efectivamente mayor para superficies alejadas de la cámara. Por lo tanto, la imagen de profundidad terminada puede aprovechar el suavizado de subpíxeles para lograr una resolución más fina que la imagen original al renderizar la malla de alta resolución (observe los detalles en los muebles en la Figura 3).
POR QUÉ
El conjunto de datos de este artículo tiene 117516 imágenes RGB-D con terminaciones renderizadas:
Conjunto de entrenamiento:105432; Conjunto de prueba:12084
Sin embargo, Es difícil predecir la profundidad absoluta a partir de imágenes monoculares.
Este artículo pretende predecir los atributos locales de cada píxel, superficie normal y límite de oclusión.
Por qué utilizar el límite de oclusión normal de la superficie: p>
Entonces, el trabajo es bueno en la predicción densa desde imágenes en color hasta normales de superficie
Entonces, cómo calcular la profundidad a partir de normales de superficie y límites de oclusión:
a) ¿Qué la pérdida debe usarse para entrenar la red
dos opciones: entrenado solo en agujeros versus todos los píxeles:
entrenado con normales renderizadas versus normales sin procesar ?
Ver el adjunto en papel para más detalles
p>
Compare los resultados experimentales:
b) Qué canales de imágenes deben ingresarse a la red
El experimento muestra que si RGB-D se utiliza como entrada para predecir normales, en agujeros. La predicción de algunos píxeles es muy pobre (aunque funciona para píxeles observados. Se especula que esta red solo predice normales a partir del canal de profundidad en RGB-D). no puede funcionar para agujeros
La conclusión de la Figura 5 inspiró al autor Usar solo imágenes en color para predecir normales de superficie
Separar “predicción sin profundidad” de “optimización con profundidad” es convincente para dos razones: Beneficios
La red anterior predijo la imagen normal de superficie N y la imagen de límite de oclusión B (==¿Cómo se ve? ==)
Resolver un sistema de ecuaciones
La función objetivo consta de una suma ponderada de cuatro errores al cuadrado
$E_D$: profundidad estimada y observaciones originales Distancia de profundidad
$E_N$: la coherencia de la profundidad predicha y la superficie normal mediante la línea de multiplicación de puntos tangentes
$E_S$: anima a los píxeles adyacentes a tener valores de profundidad similares
B: $B ∈ [0, 1] $ reduce los términos normales basándose en la probabilidad predicha de que un píxel esté en un límite de oclusión $(B(p))$
p>
==Pregunta: Si está en el límite, en realidad no satisface la tangente vertical de la normal, entonces, ¿reducir su peso? En casos extremos, ¿solo se considera $E_N$ en el límite de oclusión?==
==Pregunta: ¿No es ya no lineal el error al cuadrado?==
La forma matricial del La función objetivo es definida positiva dispersa y simétrica, por lo que puede usar == una factorización de Cholesky dispersa [11] Descomposición de Cholesky dispersa == para resolver la función que contiene el objetivo aproximado
Métricas de evaluación
(Lo anterior mide el error de profundidad, lo siguiente es una medida de las normales de superficie)
La Tabla 1 muestra los resultados bajo diferentes entradas (cuanto más grande sea la flecha hacia arriba en la tabla, mejor; por el contrario, cuanto más pequeña, mejor )
Por ejemplo, el error medio normal 17,28 < 23,59; profundidad Rel 0,089 <0,09
==Materiales complementarios== también muestran que bajo diferentes configuraciones de pérdida (solo observado versus solo no observado) , esta ventaja todavía existe
El autor cree que cuando se observa la profundidad, la red aprenderá a interpolar en lugar de sintetizar nueva profundidad en los agujeros.
++¡Este resultado experimental motivó que este artículo dividiera el método completo en dos pasos, un sistema de dos etapas++!
Tabla 2 ¡¡Tenga en cuenta que D aquí predice la profundidad a partir de la profundidad
Tomando Rel como ejemplo, N 0,089 < N+DD 0,092 < DD 0,100 < D 0,167.
El autor cree que dado que la normal de la superficie solo representa la orientación de las superficies, es más fácil de predecir, consulte [31] para más detalles, no cambia con la profundidad y es más consistente en diferentes vistas; =
Tabla 2 sí significa que hay B, No significa que no hay reducción de peso. En comparación con 0,089<0,110, la mejora es de aproximadamente el 19%.
límites de oclusión ==¿las normales de la superficie del área son ruidosas e inexactas? == Figura 6
La segunda columna es la salida del límite normal y de oclusión de la red. La tercera y cuarta columnas de la segunda fila son la comparación de si hay peso del límite. Las columnas 3 y 4 de la fila 1 son superficies normales calculadas a partir del mapa de profundidad de salida.
Límites de oclusión (oclusión) == Proporciona información de discontinuidad de profundidad, lo que ayuda a mantener la claridad/nitidez de los límites == Vea el mapa normal calculado a partir de la profundidad
Figura 7
El eje horizontal de la imagen es el número de píxeles con profundidad en la imagen (no enmascarados). La imagen de la izquierda muestra la precisión de la profundidad prevista de los píxeles observados y la imagen de la derecha muestra la precisión de la profundidad prevista de los píxeles no observados.
Obviamente. no observado La precisión es menor que la observada; pero siempre que haya una pequeña parte de la profundidad de entrada (== 2000 profundidades solo representan el 2,5% de todos los píxeles == Esto muestra desde un lado que incluso otros diseños de sensores de profundidad tienen). las mediciones escasas pueden obtener resultados más objetivos Para el efecto de predicción, == no es necesario volver a entrenar la red (la entrada de la red es solo color) == pero las normales reales cuando entrena la red provienen de la imagen de profundidad renderizada. solo haga una prueba, parece que no depende particularmente del número de profundidad bruta
Tabla 3
Los métodos de comparación en la tabla son filtrado bilineal conjunto, solución bilateral rápida, y optimización de energía global consciente de los bordes
Se encuentra que Rel es el más pequeño entre todos los métodos
La Figura 8 muestra la comparación con el filtrado bilineal conjunto
De. Según los resultados que se muestran en la Figura 8, el límite del mapa de profundidad de este método es más preciso
y el color Comparación de los métodos de estimación de profundidad con la profundidad
Tabla 4
El método en este trabajo tiene los mejores indicadores, con una mejora del 23-40%. Y representa la profundidad observada N representa la no observada
Esto también muestra que predecir normales también es un buen método para problemas de estimación de profundidad
Tenga en cuenta que no solo la profundidad predicha es más precisa, sino que también la calcula a través de la comparación de normales de superficie, lo que indica que el método descrito en este artículo ha aprendido una mejor estructura geométrica de la escena
Construir un puente para comunicar el puente de información del mapa de color y el mapa de profundidad es normal.
¡Obviamente! , esto es un sacrificio de tiempo del juego a cambio de calidad de imagen
1. Muy lento.
Para una imagen con una resolución de 320x256, se necesitan aproximadamente 0,3 segundos con la GPU NVIDIA TITAN X; aproximadamente 1,5 segundos con la CPU Intel Xeon de 2,4 GHz.
2. Se basa en alta resolución. hardware de alto rendimiento. Dificultad para controlar los costes