Revisión de la detección de objetos destacados (disposición integral)
Este artículo tiene como objetivo revisar exhaustivamente los últimos avances en detección de objetos destacados y compararlo con Vinculado a otras áreas estrechamente relacionadas, como la segmentación generalizada de escenas, la generación de señales de objetos y la predicción estacionaria de prominencia. Los contenidos principales incluyen: i) causas fundamentales, conceptos y tareas clave; ii) tecnologías centrales y principales tendencias de modelado; iii) conjuntos de datos de detección de objetos destacados y métricas de evaluación. Además, se discuten y plantean algunas cuestiones abiertas, como futuras direcciones de investigación.
1. Introducción
1.1 ¿Qué es un objeto saliente?
Como se mencionó anteriormente, generalmente se cree que un buen modelo de detección de salientes debe cumplir al menos con los requisitos siguientes tres criterios: 1 ) Buena detección: la probabilidad de omitir áreas reales que sobresalen y etiquetar erróneamente el fondo como áreas que sobresalen debe ser baja 2) Alta resolución: los mapas que sobresalen deben tener una resolución alta o completa para ubicar con precisión los objetos que sobresalen y preservar el original; información de imagen; 3) Eficiencia computacional: como interfaz para otros procesamientos complejos, estos modelos deberían poder detectar rápidamente áreas prominentes.
1.3 Historia de la detección de objetos salientes
(1) El modelo de prominencia clásico propuesto por primera vez por Itti et al., como el mapa de prominencia predicho del artículo, G es la máscara binaria del objeto saliente Forma terrestre
(1) Recuperación de precisión (PR). Primero, el mapa saliente S se convierte en una máscara binaria M, y luego la precisión y la recuperación se calculan comparando M con la verdad fundamental G:
(2) Valor F: normalmente, tanto la precisión como la recuperación La calidad del mapa de prominencia no se puede evaluar completamente, por lo que el valor F se propone como un peso no negativo de Precisión y Recuperación:
(3) Curva ROC (Receiver Operating Characteristic): Esta es una curva basado en la tasa de falsos positivos (FP_rate) y la curva con la tasa de falsos negativos (TP_rate) como eje
(4) Área bajo la curva ROC (AUC): cuanto mayor sea el AUC, mejor rendimiento
(5) Error absoluto medio (MAE): para una comparación más completa.
Figura 12. Conjuntos de datos de detección de objetos destacados actualmente populares:
2. Contenido complementario de la detección de prominencia tradicional (la clasificación en el artículo es inconsistente con mis hábitos habituales, por lo que re- Recopilar datos y organizar)
Métodos comunes de detección de prominencia:
1. Modelo cognitivo
Casi todos los modelos se ven afectados directa o indirectamente por lo cognitivo Una de las características principales Una de las características del modelo de inspiración es su integración con la psicología y la neurología. El modelo iti (que utiliza tres canales de características de color, atributo y dirección) es el representante de este tipo de modelo y la base de muchos modelos derivados posteriores
2. Modelo de teoría de la información
En esencia En otras palabras, estos modelos hacen el máximo uso de la información en el entorno visual, el más influyente de los cuales es el modelo AIM.
3. Modelo de teoría de grafos
El modelo de prominencia basado en rueda de gráficos utiliza métodos como modelos ocultos de Markov, redes bayesianas dinámicas y campos aleatorios condicionales para tratar los datos de movimiento ocular como si fueran un tiempo. serie. Los modelos gráficos pueden simular mecanismos de atención complejos y, por tanto, tienen buenas capacidades predictivas. La desventaja es la alta complejidad del modelo, especialmente en términos de entrenamiento y legibilidad. Los modelos típicos incluyen GBVS, etc.
4. Modelo de dominio de frecuencia
El modelo de prominencia basado en el análisis de espectro tiene una forma simple, es fácil de interpretar e implementar y ha logrado excelentes resultados en La predicción del foco de atención y la detección de áreas salientes fue un gran éxito, pero su plausibilidad biológica no estaba del todo clara. Los modelos clásicos incluyen: modelo de detección de significancia de residuos espectrales (método de cálculo matemático puro).
Enlaces de referencia:
/p-915060851.html
/p-4993561181219.html
/u012507022/article/details/ 52863461
Tres: contenido complementario de detección de prominencia basado en aprendizaje profundo (el artículo se escribió en 2014 y la parte de aprendizaje profundo no está completa, por lo que se agrega aquí nuevamente)
Basado en el aprendizaje profundo, la investigación de detección de objetivos salientes, desde las redes neuronales de detección de objetos hasta el desarrollo inicial de OverFeat, ha sido difícil lograr los resultados esperados. En 2014, nació R-CNN y se convirtió en el primer programa que podría industrializarse verdaderamente. Su mAP en el conjunto de pruebas VOC2007 aumentó al 66%. Sin embargo, el marco R-CNN todavía tiene muchos problemas:
1) El entrenamiento se divide en varias etapas y los pasos son tediosos: ajuste fino de la red + entrenamiento de SVM + entrenamiento del regresor de borde
2) El entrenamiento requiere mucho tiempo y ocupa mucho espacio en disco: 5000 imágenes generarán cientos de GB de archivos de características
3) Lento: cuando se usa la GPU, el modelo VGG-16 requiere 47 segundos para procesar una imagen
Hasta ahora, la investigación sobre la detección de objetos destacados basada en el aprendizaje profundo se puede dividir en dos categorías: detección de objetos de aprendizaje profundo basada en propuestas de región y detección de objetos de aprendizaje profundo basada en regresión.
Los métodos de detección de objetivos de aprendizaje profundo basados en sugerencias regionales incluyen R-CNN, SPP-net, FastR-CNN, Faster R-CNN, R-FCN, etc.
1) R-CNN (regiones con características de CNN) repite cálculos y tiene altos costos de tiempo y espacio
2) SPP-net (Spatial Pyramid Pooling) fortalece el uso de CNN; , Permitir la entrada de imágenes con tamaños inconsistentes enfatiza aún más la idea de hacer avanzar los cálculos de características de CNN y el procesamiento de regiones más tarde, lo que ahorra en gran medida la cantidad de cálculo, pero no es un modelo de un extremo a otro y no hay ajuste de parámetros de enlace para la extracción de características de CNN;
3) La aparición de FastR-CNN resuelve el problema de los cálculos repetidos de los dos primeros, realiza el intercambio de convolución desde la sugerencia de la región hasta el final de la detección del objetivo y propone Por primera vez, se utiliza la tecnología RoI Pooling, que desempeña en gran medida el papel de posterior regional. Aprovechando la aceleración del entrenamiento, se utiliza VGG-16 como modelo de red CNN y se llama a los parámetros vinculados para mejorar el efecto experimental, pero al final El modelo de extremo a extremo aún no se ha implementado y la dependencia de la sugerencia de la región SS es mayor;
4) El R-CNN más rápido abandona la búsqueda selectiva y propone utilizar la red RPN para calcular cuadros candidatos. y utiliza una red de extremo a extremo para la detección de objetivos. Esto ha mejorado enormemente tanto la velocidad como la precisión, pero no se puede lograr en términos de velocidad. Para satisfacer las necesidades en tiempo real, la cantidad de cálculo para cada clasificación propuesta sigue siendo grande. la función no entra en la etapa de segmentación de instancias.
Los métodos de detección de objetivos de aprendizaje profundo basados en regresión incluyen YOLO, SSD, G-CNN, NMS, etc.
1) YOLO (Solo miras una vez) transforma la tarea de detección de objetivos en un problema de regresión, lo que simplifica enormemente el proceso de detección y acelera la velocidad de detección. Sin embargo, la predicción de la ventana de objetivos utiliza información global. y redundancia Alta, la precisión de la detección no es alta sin el mecanismo de sugerencia de región
2) SSD (Single ShotMultibox Detector) utiliza características alrededor de la posición para predecir la posición, combinando la idea de regresión de YOLO; y la región candidata en el mecanismo FasterR-CNN, que no solo mantiene la velocidad de YOLO sino que también garantiza la precisión del posicionamiento.
3) G-CNN se centra en reducir el número de sugerencias de inicialización, convirtiendo decenas de ellas; miles de sugerencias en una pequeña cantidad de sugerencias de inicialización. La cuadrícula mejora la velocidad de detección;
4) NMS (supresión no máxima) elimina fotogramas candidatos duplicados mediante iteración y selecciona el fotograma con la tasa de confianza más alta.
En las aplicaciones prácticas actuales, la detección de objetivos de aprendizaje profundo basada en sugerencias de regiones se utiliza ampliamente.
Métodos de investigación actuales para la detección de importancia basados en el aprendizaje profundo:
El marco de detección de objetivos de importancia de la serie R-CNN y el marco de detección de objetivos de importancia de YOLO nos proporcionan dos métodos basados en profundidad. Marcos básicos para el aprendizaje de la detección de objetos. Actualmente, los investigadores han propuesto una serie de métodos para mejorar el rendimiento de detección de objetivos desde otros aspectos basados en estos marcos. Por ejemplo, extracción exhaustiva de muestras, fusión de funciones multicapa, uso de información contextual, aprendizaje de funciones de redes profundas, etc.
Enlace original:/qq_32493539/article/details/79530118