Red de conocimiento informático - Material del sitio web - Seguimiento entre lentes basado en múltiples cámaras

Seguimiento entre lentes basado en múltiples cámaras

La primera tarea del seguimiento entre espejos es generalmente establecer una topología de cámara preliminar, luego calcular el conjunto de tiempo de llegada y el conjunto de tiempo de salida del objetivo en movimiento en cada punto topológico, calcular la correlación entre los dos conjuntos de conjuntos de tiempo y establecer una conexión física. Un método de cálculo más común es utilizar el método de estimación de topología de función mutua y gaussiano para calcular la función de correlación cruzada entre nodos. (Por supuesto, esto es principalmente para las imágenes de sincronización de cada cámara, y no para otra información. Teniendo en cuenta la cantidad de cámaras y sin conocer el número completo, es problemático conectarlas una por una, por lo que solo podemos usar el cálculo de correlación De hecho, en escenarios generales, también se dibuja la correlación topológica del papel dibujado a mano).

?Después de establecer la asociación topológica, el segundo paso es establecer la asociación de objetivos entre cámaras. Cuando un objetivo en movimiento aparece en el campo de visión de una determinada cámara por primera vez, se determina la identidad del objetivo en movimiento. Primero se debe determinar el objetivo, es decir, dar una identificación y luego asociarla con el objetivo faltante o establecer una nueva identidad. La asociación del objetivo en este paso es la reidentificación básica de peatones a través del espejo.

El último paso es actualizar y conocer el modelo objetivo. En términos generales, habrá dos resultados después de la asociación del objetivo de la cámara. Uno es que el objetivo no puede coincidir con todos los objetivos en movimiento en el conjunto de objetivos candidatos, lo que significa que se trata de un objetivo nuevo y se debe crear una nueva identidad y establecer el objetivo en movimiento. modelo, agregándolo al grupo de secuencias de la computadora. En otro caso, si el objetivo coincide con éxito con el objetivo candidato, demuestra que el objetivo es un objetivo que salió de otras cámaras. En este caso, se le debe dar su identidad original y continuar con el seguimiento.

En la extracción de características inicial, la mayoría de las extracciones de características solo usaban una característica de apariencia o una característica de movimiento. Las características de apariencia eran principalmente escala de grises y contornos originales, y algunas usaban color. Dado que la especificidad de cada característica es diferente, es difícil obtener un buen rendimiento de detección utilizando solo una característica. Con el desarrollo gradual de los tipos de extracción de características de peatones, los tipos extraídos no son solo características de apariencia y características de movimiento. Hasta ahora, se dividen principalmente en tres categorías: características subyacentes, características basadas en el aprendizaje y características híbridas.

?El modelado de fondo primero extrae el movimiento de primer plano del objetivo y realiza la extracción de características en el área objetivo, como calcular el flujo óptico residual en el área de movimiento, extraer características de movimiento de las piernas de los peatones o construir un retardo neuronal adaptativo. red La red determina si se trata de una secuencia de imágenes en movimiento humana y luego utiliza un clasificador para clasificar si contiene peatones. Sin embargo, el principal problema en el modelado de fondo actual es que debe adaptarse a los cambios ambientales.

?La coincidencia de plantillas se divide en dos tipos: coincidencia global y coincidencia local. El método de plantilla global es un algoritmo de coincidencia jerárquica basado en contornos, que identifica a los viajeros mediante la construcción de una gran cantidad de plantillas de contorno para hacer coincidir a los peatones. El método de coincidencia local utiliza plantillas de imágenes binarias de diferentes tamaños para simular la cabeza y los hombros e identifica a los peatones comparando la imagen del borde de la imagen de entrada con la plantilla binaria.

Las estadísticas son actualmente el método de detección de peatones más utilizado y crean clasificadores de detección de peatones basados ​​​​en una gran cantidad de muestras. Las características extraídas son principalmente escala de grises, bordes, textura, color, histograma de degradado y otra información del objetivo. Los clasificadores incluyen principalmente redes neuronales, SVM, adaboost, etc.

?El método de seguimiento del centro de masa predice principalmente la ruta del objeto detectado a través de las coordenadas del centro. Los algoritmos de seguimiento del centro de masa recomendados actualmente son: dlib, filtro Kalman (hay muchos algoritmos de seguimiento del centro de masa, pero. Personalmente, recomiendo dos de mis favoritos: dlib es una biblioteca de terceros, que es conveniente y rápida. El filtro Kalman es un algoritmo clásico antiguo, como deepsort, que actualmente incluye este algoritmo. Es posible que la oclusión no sea visible de vez en cuando. Generalmente, se rastreará junto con la extracción de características, siguiendo los cuatro pasos de detección, extracción de características, predicción de movimiento, cálculo de similitud y asociación de datos. > Hay dos tipos principales de grabación. Uno es adecuado para escenarios aire-tierra y tierra-tierra. Este algoritmo realiza un seguimiento de bloqueo de fondo en la escena y estima el movimiento global de toda la escena en función del movimiento de cada uno. punto, selecciona automáticamente objetivos en la escena y realiza operaciones de posicionamiento. El otro se basa en la detección de bordes. Es mejor tener partes de bordes relativamente fijas desde diferentes ángulos. Al usarlo, tome los personajes como ejemplo. Después de binarizar toda la escena, la parte redonda del cerebro cambia poco, mientras que otros bordes continúan cambiando.

?El aprendizaje métrico de coseno se divide en dos partes, el aprendizaje de coseno y el aprendizaje métrico. El aprendizaje de coseno calcula principalmente la distancia del coseno entre dos objetos para medir su similitud. El aprendizaje métrico resuelve principalmente problemas de agrupamiento. La distancia métrica entre objetos similares se reduce, lo que produce un efecto de agregación. La distancia del coseno entre objetos se pasa a través del método de aprendizaje profundo y, finalmente, se obtiene la expresión de características a través de la red. Se utiliza el vector de expresión de características obtenido de esta red. grupo al que pertenece según la distancia del vecino más cercano.

?Gran parte de la investigación actual de ReId sobre redes se basa en una versión mejorada del modelo ResNet50. Tomando como ejemplo la red multigranularidad (MGN), utiliza las primeras tres capas de Resnet50. extrae las características básicas de la imagen, y en las características de la capa semántica avanzada, el autor diseñó tres ramas independientes. La primera rama es responsable de la extracción de información global de toda la imagen y la segunda rama divide la imagen en partes superior, media e inferior. para extraer información semántica de grano medio La tercera rama Divide la imagen en partes superior, media e inferior para extraer información más detallada. Finalmente, se utilizan características de 256 dimensiones como características de los peatones para comparar, y la distancia euclidiana se utiliza para medir la similitud entre dos peatones.

?La red a gran escala es una estructura de red neuronal especialmente configurada para ReId. No solo puede capturar diferentes escalas espaciales, sino que también encapsula cualquier combinación de múltiples escalas. Nos referimos a estas características de escala homogénea y heterogénea como características de escala completa. Esto se logra diseñando un bloque residual compuesto por múltiples flujos de características convolucionales, cada uno de los cuales es capaz de detectar características a una escala determinada. Es importante destacar que presentamos una nueva puerta de agregación unificada que utiliza cada peso de canal asociado con la entrada para realizar una fusión dinámica de características de múltiples escalas. La idea general es que al incluir múltiples ramas de la red, se pueden realizar múltiples predicciones.

Se mezcla con mucha comprensión personal. La exactitud del registro no se puede garantizar y puede modificarse en cualquier momento (●ˇ? ●●)