Red de conocimiento informático - Espacio del host - Lo que sé sobre la segmentación de imágenes

Lo que sé sobre la segmentación de imágenes

La segmentación de imágenes es lo que hice en mi segundo año en 2019, y este artículo se utiliza para resumirlo.

Se realiza una segmentación semántica de imágenes a nivel de píxeles y los objetos de segmentación de ejemplo se clasifican aún más.

Calcule uno o más umbrales de escala de grises según las características de escala de grises de la imagen, compare el valor de escala de grises de cada píxel de la imagen con el umbral y finalmente divida los píxeles en las categorías correspondientes según los resultados de la comparación. .

Determinar una determinada función de criterio para resolver el umbral de grises óptimo. El método de umbral es especialmente adecuado para mapas donde el objetivo y el fondo ocupan diferentes rangos de escala de grises.

Cabe mencionar que este método también se puede utilizar para la detección de puntos característicos

Búsqueda directa de área. Hay dos formas básicas: una es el método de crecimiento regional, es decir, comenzar desde un solo píxel y fusionarse gradualmente para formar el área de segmentación requerida; la otra es el método global, es decir, cortar gradualmente al área de segmentación requerida;

Los algoritmos de segmentación de imágenes basados ​​en la detección de bordes intentan resolver el problema de segmentación detectando bordes que contienen diferentes regiones. Se puede decir que este es uno de los métodos más antiguos y estudiados. Por lo general, el valor de gris de los píxeles en los límites de diferentes áreas cambia drásticamente. Si la imagen se transforma del dominio espacial al dominio de frecuencia mediante la transformada de Fourier, el borde corresponde a la parte de alta frecuencia. Este es un algoritmo de detección de bordes muy simple. .

Convolución tradicional

La convolución tradicional + residual resuelve el problema de la desaparición del gradiente y la red se vuelve más profunda

Red neuronal eficiente (ENet)

ResNet-38

Red Residual de Resolución Completa (FRRN)

AdapNey

Por detección de objetos (R-CNN,

en Agregar una rama de predicción de máscara a la estructura rápida R-CNN y mejora la agrupación de ROI y la alineación de ROI.

La función de evaluación solo puntúa los fotogramas candidatos de detección de objetivos, no la plantilla para la puntuación.

(1) Mejora del modelo ReSeg FCN

Desventajas de FCN: no considera las dependencias del contexto local o global, lo cual es muy útil en la segmentación semántica. Por lo tanto, en ReSeg, el autor usa RNN para recuperar. información contextual como base parcial para la segmentación.

Las redes neuronales convolucionales pierden algunos detalles durante el muestreo para obtener más valores característicos. Esto es irreversible y a veces conduce a problemas como baja resolución de imagen y pérdida de detalles. operaciones posteriores, por lo tanto, podemos obtener límites de segmentación más precisos aumentando el muestreo hasta cierto punto sin perder completamente parte de la información.

Después de la convolución y luego el muestreo adicional, se puede obtener el mapa de segmentación. > Ventajas:

FCN clasifica imágenes a nivel de píxeles, resolviendo así el problema de la segmentación semántica de imágenes

FCN puede aceptar imágenes de entrada de cualquier tamaño y retener la información espacial en el archivo; imagen de entrada original;

Desventajas:

FCN puede aceptar imágenes de entrada de cualquier tamaño y retener la información espacial en la imagen de entrada original. al aumentar el muestreo, el resultado es borroso, suave e insensible a los detalles de la imagen

Clasifica cada píxel individualmente, no considera la relación entre los píxeles y carece de coherencia espacial

Restaura. la resolución reducida de las redes neuronales convolucionales profundas y captura más información contextual.

DeepLab es un método que combina redes neuronales convolucionales profundas y modelos gráficos probabilísticos para tareas de segmentación semántica, con el objetivo de clasificar píxel por píxel. y su complejidad se refleja en la combinación de DenseCRF (modelos gráficos probabilísticos) y DCNN que combina cada píxel como un nodo CRF, utiliza dependencias remotas y utiliza la inferencia CRF para optimizar directamente la función de pérdida de DCNN. p> En el campo de la segmentación de imágenes, una operación bien conocida de FCNN es suavizar primero y luego llenar, es decir, primero convolucionar y luego agrupar, lo que aumenta la sensación del campo y reduce el tamaño de la imagen, pero debe haber una. Se pierde cierta cantidad de información en el proceso de reducir primero el tamaño de la imagen (convolución) y luego aumentar el tamaño (muestreo), por lo que aquí hay margen de mejora.

DeepLab propuso una convolución vacía para resolver este problema

(1) Segmentación de imágenes tradicional

Pérdida de entropía cruzada (Pérdida de entropía cruzada)

Focal Loss resuelve el problema del desequilibrio de la muestra

(2) Segmentación de imágenes médicas

Dice Loss (la función de pérdida se propone con un fondo, muy directo). Métricas de rendimiento de optimización, que están relacionadas con mi otro tema, optimización no convexa)

pagaré (generalmente utilizado como métrica de evaluación)

Sobre la base de la pérdida básica anterior, existen una variedad de métodos mejorados

Debido a que la información de la imagen en el área de detección correspondiente a los píxeles adyacentes es demasiado similar.

Si los píxeles adyacentes están ubicados dentro del área de segmentación requerida, entonces esta similitud Será ventajoso que los píxeles adyacentes estén ubicados dentro del área de segmentación deseada, pero no propicio que los píxeles adyacentes estén ubicados en el límite del área de segmentación deseada.

Las características de contexto son muy comunes. De hecho, el contexto se puede entender de manera aproximada, ya que cada píxel de la imagen no se puede aislar. Debe haber una cierta relación entre un píxel y los píxeles circundantes, y una gran cantidad de ellos. Los píxeles están conectados entre sí. Juntos producen varios objetos en la imagen, por lo que las características contextuales incluyen alguna relación entre los píxeles y los píxeles circundantes.

1. Agregue una pérdida adicional en el límite del resultado de segmentación generado por la red, o deje que la red modele y aprenda las características en el límite por separado de las características dentro de la región. El propósito de esto sigue siendo permitir que la red complete dos tareas al mismo tiempo: segmentación y detección de bordes. Además, es igualmente simple y efectivo aumentar la resolución de entrada de la imagen de entrada y la resolución del mapa de características de la capa intermedia.

2. Utilice ponderación dinámica de pérdida o muestreo en el espacio bidimensional de la imagen para resolver el problema de números desiguales de píxeles con diferente semántica en la misma imagen y diferentes dificultades de aprendizaje.

3. Utilice métodos de aprendizaje semi-supervisados ​​o débilmente supervisados ​​para reducir los costosos problemas de etiquetado. Utilice varias muestras de ruido etiquetadas o sus características para establecer etiquetas virtuales, limpiar las muestras o características virtuales y reducir el ruido de las etiquetas.

4. Utilice el mecanismo de modelado de contexto razonable para ayudar a la red a adivinar la información semántica de la parte difusa.

5. Establecer un módulo de interacción de características o pérdidas entre diferentes imágenes en la red.