Red de conocimiento informático - Aprendizaje de código fuente - Unido panorámico de vídeo UAV, detección y seguimiento de objetos en movimiento

Unido panorámico de vídeo UAV, detección y seguimiento de objetos en movimiento

En los últimos años, los vehículos aéreos no tripulados (UAV) se han utilizado cada vez más en muchos campos. A través del video aéreo de drones, puede obtener fácilmente más información estática y dinámica y comprender la situación en el sitio. El registro de cuadros, la unión de imágenes panorámicas, la detección y el seguimiento de objetivos en movimiento son la clave y la base para el análisis y procesamiento de videos aéreos. Primero, utilizamos el método de estimación l_q para eliminar valores atípicos y realizar coincidencias sólidas en puntos característicos. Luego utilizamos el método de transformación lineal directa en movimiento (MDLT) para encontrar la capacidad de respuesta única de los fotogramas con mayor precisión y unir la secuencia de fotogramas en un panorama. Finalmente, aplicamos un método de diferencia de cinco cuadros en cuadros deformados para detectar objetos en movimiento y utilizamos un método de seguimiento visual a largo plazo para rastrear objetos de interés en escenas complejas.

Los drones son más pequeños, ligeros y baratos que los aviones tripulados, lo que los hace más adecuados para misiones peligrosas. Los pequeños vehículos aéreos no tripulados equipados con sensores visuales son una plataforma ideal para tareas como la lucha contra el terrorismo, la vigilancia del tráfico, la ayuda en casos de desastre y la vigilancia del campo de batalla. La unión de imágenes panorámicas, la detección y el seguimiento de objetos en movimiento son tecnologías clave para completar estas tareas. Debido al movimiento de la plataforma, además de los objetos en primer plano, el fondo también se mueve, por lo que la compensación del movimiento del fondo es un paso necesario en el análisis y procesamiento de vídeos aéreos de drones. El módulo de compensación del movimiento de fondo recibe y registra fotogramas de vídeo y genera las imágenes alineadas correspondientes, que se utilizan para unir la secuencia de fotogramas para generar un panorama para captar la información general. Además, los objetos en movimiento se pueden detectar mediante la resta de cuadros y los objetos de interés se pueden rastrear a través del módulo de seguimiento. Este artículo primero extrae las características de Harris de marcos adyacentes, luego introduce un estimador basado en la eliminación de valores atípicos y una coincidencia sólida de características, y luego utiliza el método MDLT para encontrar la capacidad de respuesta única del marco. De forma unilineal, se registra cada fotograma y se compensa el movimiento propio de la plataforma, y ​​luego el panorama se une a través de la secuencia de fotogramas. Finalmente, los objetos en movimiento se detectan mediante un método de diezmado de 5 fotogramas y los objetos de interés se rastrean mediante un algoritmo de seguimiento visual basado en filtros de correlación.

El registro de imágenes utiliza una estrategia de coincidencia para encontrar la posición correcta del punto característico correspondiente en dos imágenes y luego obtiene una única línea lineal entre las dos imágenes para el registro. El algoritmo de registro de imágenes de este artículo consta de varias partes: la extracción y descripción de los puntos característicos de Harris, un estimador robusto de coincidencia de características y el método MDLT para estimar la monorespuesta. Primero, se extraen y describen puntos característicos de dos imágenes para obtener puntos coincidentes, luego se eliminan los valores atípicos y se utiliza un estimador para hacer coincidir de manera sólida las características. Finalmente, utilizamos el método MDLT para ponderar estimaciones que satisfacen una única capacidad de respuesta para diferentes partes de la imagen, lo que da como resultado parámetros precisos del modelo de proyección para alinear los marcos de la imagen.

Para que los pares de imágenes coincidan, utilizamos el método de coincidencia de características de Harris et al para determinar N puntos correspondientes coincidentes iniciales:

Entre ellos, se encuentran las coordenadas bidimensionales. de los puntos característicos coincidentes. Si son puntos interiores, se cumple la siguiente relación:

La transformación se puede estimar mediante el método de mínimos cuadrados de pares coincidentes de puntos interiores:

Sin embargo , puede haber valores atípicos en estos puntos, para estimar correctamente la transformación, se deben eliminar los valores atípicos. Los métodos actuales suelen utilizar estrategias de dos pasos o técnicas de hipótesis y verificación (como RANSAC) para resolver este problema, pero estos métodos siempre consumen mucho tiempo y ni siquiera pueden producir resultados razonables.

Método de coincidencia de características basado en la robustez: el estimador estima directamente la transformación correspondiente inicialmente al valor atípico. Para clasificar automáticamente los vectores residuales en valores atípicos y valores internos, la función de pérdida de mínimos cuadrados clásica es muy sensible a los valores atípicos. Los paradigmas son adecuados para resolver este tipo de problemas, pero no son fiables debido al ruido contenido en los datos observados. Normalmente, el paradigma se aplica a la compensación de regularización de relajación convexa más cercana. El estimador es más robusto y eficiente en la comparación de características. La función de pérdida es

donde está el operador canónico.

Los valores atípicos se eliminarán transformando globalmente los puntos característicos iniciales.

Para videos aéreos a baja altitud, el ángulo de visión entre cuadros no es exactamente el mismo debido a la rotación, y no es una escena completamente plana. El uso de deformación monoclínica básica inevitablemente producirá errores de desalineación o paralaje.

El método de unión de imágenes APAP (As-projective-As-as-posible) propuesto por Julio Zaragoza et al supone que los detalles de la imagen satisfacen diferentes unilineales y utiliza el método de estimación ponderada unilineal MDLT para utilizar las unilineales relacionadas con la posición para cada píxel. Se realizan deformaciones, mitigando los efectos de desalineación y errores de paralaje.

La transformación lineal directa (DLT) es un método básico para estimar respuestas únicas a partir de un conjunto de coincidencias de puntos ruidosos. Después de vectorizar la matriz de respuesta única en un vector, solo dos filas no están correlacionadas linealmente, de modo que las dos primeras filas son las dos primeras filas de la matriz LHS calculada para la primera coincidencia de puntos. Para todos los apilamientos verticales de la matriz A,

entonces el objetivo de optimización es

deformar utilizando solo una reconstrucción de respuesta única de toda la imagen.

Mejora el método MDLT al estimar respuestas únicas de un problema ponderado,

donde las ponderaciones dan mayor importancia a las coincidencias más cercanas del primer punto.

Para evitar problemas numéricos en las estimaciones, se compensan los pesos con un valor pequeño entre 0 y 1.

Calcular la varianza única de cada píxel provocará un desperdicio innecesario. Por lo tanto, dividimos la imagen uniformemente en una cuadrícula compuesta de múltiples unidades y tomamos el centro de cada unidad como tal.

Después de unir cuadros panorámicos de video aéreos, podemos obtener imágenes estáticas de escenas a gran escala para capturar la información general.

Primero, utilizamos distorsión de entidad única para distorsionar las dos imágenes que se van a unir, asignamos píxeles a posiciones en el panorama, unimos las dos imágenes en secuencia y luego fusionamos las dos imágenes distorsionadas para evitar diferencias frontales. cerca de la línea de costura. Por lo general, la tasa de superposición de cuadros adyacentes es alta. En aplicaciones prácticas, seleccionamos cuadros en un cierto intervalo de tiempo para empalmar en función de la velocidad de movimiento, lo que puede reducir la complejidad computacional. Para imágenes empalmadas anteriores, solo seleccionamos el último fotograma en lugar de toda la imagen empalmada para extraer puntos característicos, lo que también aumenta la velocidad de cálculo.

Para fotogramas alineados, adoptamos un método mejorado de diferencia de 5 fotogramas para detectar objetivos en movimiento. El método tradicional de diferencia de 3 cuadros puede detectar el contorno básico del objeto, pero el contorno siempre es discontinuo y las partes superpuestas del objeto no son fáciles de detectar. Según la teoría de la diferencia de cuadros, la fusión de información de diferencias de cuadros múltiples puede extraer objetos en movimiento más completos. Para los 5 cuadros adyacentes, primero usamos un filtro mediano para eliminar el ruido de sal y pimienta, y luego realizamos una operación de diferencia en el cuadro del medio y los otros 4 cuadros respectivamente. Los resultados son los siguientes:

Después de filtrar los resultados de la diferencia, introducimos el método de segmentación de umbral dinámico de Otsu para obtener la imagen binaria y luego usamos la operación "Y" para suprimir el problema de superposición de objetos.

A continuación utilizamos la operación "o" sobre y para evitar introducir agujeros en el contorno del objeto.

Las imágenes binarias también pueden contener ruido y pequeños agujeros, lo que puede dar como resultado cuadros delimitadores de objetos incorrectos. Finalmente, la posición y escala de un objeto se pueden obtener mediante erosión y expansión morfológica, enmascarando así áreas de objetos en movimiento, eliminando ruido y rellenando agujeros.

El paso de detección de objetos en movimiento detecta múltiples áreas de objetos solo seleccionamos un objetivo de interés y utilizamos un algoritmo de seguimiento visual a largo plazo basado en un filtro de correlación para rastrear el objetivo seleccionado y obtener la posición del objetivo. proporción. Objetivo en tiempo real. El rastreador se inicializa mediante los cuadros delimitadores detectados en la operación de detección.

Los algoritmos de seguimiento visual a largo plazo basados ​​en filtros de correlación integran histogramas de gradiente orientados, denominación de colores e intensidad en el marco de los rastreadores de filtros de correlación del núcleo para crear un modelo robusto de apariencia de objetos. En fotogramas posteriores, la nueva posición y escala del objeto se pueden estimar maximizando la puntuación de correlación de los filtros de traducción y escala, y los filtros se actualizan con la nueva posición y escala. Al mismo tiempo, detectamos el estado de seguimiento en tiempo real y utilizamos un filtro CUR en línea para volver a detectar objetos cuando falla el seguimiento. El algoritmo es muy robusto para escenas complejas con seguimiento visual a largo plazo. El diagrama de flujo de seguimiento se muestra en la Figura 1.

El conjunto de datos del experimento se seleccionó a partir de los datos de vídeo aéreo del conjunto de datos públicos de verificación de identidad de vídeo propuesta (VIVID) de DARPA. Estos conjuntos de datos incluyen fondos de vídeo con menos textura y con mucha textura.

Seleccionamos dos vídeos típicos como objetos experimentales, a saber, egtest01 y egtest05, con una resolución de 640x480 y una velocidad de fotogramas de 30 fps. Los experimentos se implementaron utilizando MATLAB R2016a en una computadora con Intel Core i5-7300HQ, CPU de 2,5 GHz y 8 GB de memoria.

Primero extraemos las características de Harris en los dos marcos que se van a alinear, usamos la distancia euclidiana de los descriptores para una coincidencia aproximada y luego usamos las estimaciones para eliminar los valores atípicos. El resultado final de la coincidencia se muestra en la Figura 2.

Como se puede ver en la Figura 2, ya sea una escena de fondo con menos textura o una escena de fondo con textura rica, la distribución de los puntos característicos es muy uniforme y los puntos característicos se concentran principalmente en el fondo, lo que ayuda a obtener resultados de registro precisos.

Utilizamos el método MDLT para obtener una transformación de 2 cuadros basada en puntos característicos coincidentes, luego deformamos la imagen, empalmamos y fusionamos la imagen de referencia y la imagen deformada. Finalmente, los fotogramas se unen secuencialmente, dando como resultado el panorama que se muestra en la Figura 3.

Una vez alineados los fotogramas, utilizamos el método de diferencia de 5 fotogramas para obtener el resultado de la diferencia, luego eliminamos el ruido cuadrado fino, realizamos operaciones morfológicas para obtener el área del objeto y finalmente obtenemos la posición del objeto en movimiento y el cuadro delimitador del área de escala como se muestra en la Figura 4.

Los algoritmos de seguimiento pueden actualizar la escala de los objetos y volver a detectar los objetos perdidos en caso de oclusión completa o pérdida de visión. La Figura 5 muestra los resultados del seguimiento para diferentes fotogramas.

Hemos desarrollado una serie de métodos de implementación de algoritmos clave de procesamiento de imágenes para reconocimiento aéreo basados ​​en pequeñas plataformas UAV. Estos algoritmos incluyen el registro de fotogramas de vídeo, el uso de diferencias de fotogramas para la detección de objetos en movimiento, la unión de fotogramas en un panorama y el seguimiento de uno de los objetos detectados. Los resultados experimentales muestran que el método propuesto puede funcionar bien en alineación, empalme, detección y seguimiento en escenas complejas tanto en escenas con fondos sin textura como con fondos ricos en texturas.