¿Cuál es la diferencia entre el modelo YOLO y el modelo mtcnn al realizar el reconocimiento facial?
Igual que MTCNN (red neuronal convolucional en cascada multitarea), el método principal de reconocimiento facial de MTCNN es:
Dada una foto, escale a diferentes proporciones de pirámides de imágenes para lograr invariancia de escala.
Paso 1: Utilice P-Net para generar ventanas candidatas y vectores de regresión del cuadro delimitador (vectores de regresión del cuadro delimitador). Estas ventanas candidatas se rectifican mediante un método de regresión de cuadros delimitadores y los cuadros candidatos superpuestos se fusionan mediante supresión no máxima (NMS). La red totalmente convolucional está en la misma línea que RPN en FasterR-CNN;
Paso 2: use N-Net para mejorar la ventana candidata, ingrese la ventana candidata a través de P-Net en R-Net, y elimine la mayoría de las ventanas de error, y continúe usando la regresión de bordes y NMS para fusionar las ventanas candidatas;
Paso 3: finalmente, use O-Net para generar el marco de la cara final y las posiciones de los puntos característicos. Este paso es similar al paso 2, pero la diferencia es que se generan 5 ubicaciones de puntos característicos.
Se puede ver que MTCNN adopta un enfoque por etapas para lograr las tareas de detección y alineación de rostros, es decir, cada etapa consta de una red y debe entrenarse en etapas durante el uso. Obviamente no es un método de aprendizaje de un extremo a otro y la eficiencia del reconocimiento facial es lenta. Además, la capacidad de generalización de la red es débil y su solidez es pobre.