Notas en papel de CV MobileNetV2: cuello de botella lineal y residual invertido (interpretación de MobileNetV2)
Este artículo se utiliza principalmente para presentar la red liviana MobileNetV2 propuesta por el equipo de Google Lab en 2018. Esta nota está destinada principalmente a que los principiantes comiencen rápidamente y se revisen ellos mismos.
Enlace del artículo: /content_cvpr_2018/papers/Sandler_MobileNetV2_Inverted_Residuals_CVPR_2018_paper.pdf
El directorio básico es el siguiente:
----------- -- - ----El primer resumen de hongos------------------
En este artículo, presentamos una nueva arquitectura de red MobileNetV2, que logra mejores resultados en múltiples tareas basadas en visión en comparación con MobileNets de primera generación. También mejoramos una nueva arquitectura llamada SSDLite basada en MobileNetV2 para la tarea de detección de objetos. Al mismo tiempo, para la tarea de segmentación de instancias, también mejoramos sobre la base de DeepLabv3 y propusimos Mobile DeepLabv3.
Toda la arquitectura de red MobileNetV2
Toda la arquitectura de red MobileNetV2 se basa en la estructura residual invertida y todavía utiliza una convolución profunda liviana para implementar operaciones de filtrado. Hemos eliminado la función de activación no lineal. Esto trae una serie de mejoras, que explicaremos más adelante.
Por último, nos gustaría decir que nuestra arquitectura se puede aplicar fácilmente a otras aplicaciones. Por supuesto, también hemos realizado experimentos en clasificación ImageNet, detección de objetivos COCO y segmentación de imágenes VOC. Lo compararemos cuidadosamente con otros modelos, incluida la puntualidad, la cantidad de parámetros, la precisión, etc. ~
-- - ---------------La segunda idea del núcleo del hongo------------------
No, si No conozco la primera versión de MobilesNet, puede leer la primera versión primero y mi descripción del enlace personal está aquí.
Todos deben conocer la versión MobileNetsV1, pero hay un problema muy extraño en la primera versión, es decir, es más probable que los núcleos de convolución en la parte de profundidad de convolución fallen. se encuentran vacíos, como se muestra en la figura siguiente1,
El autor cree que el bote fallido es el bote de la función de activación de ReLU. También escribió una teoría muy, muy larga para demostrarlo. (Muchas cosas son difíciles de entender. Sin embargo, si ReLU se realiza en dimensiones altas, la pérdida de información es relativamente pequeña (por ejemplo, cuando dim = 30 arriba, todavía hay mucha información en el límite)
Por lo tanto, esto explica el fenómeno de que muchos núcleos de convolución están vacíos. Por lo tanto, el autor reemplazó ReLU con una función de activación lineal en la segunda generación.
Por supuesto, en la vida real, no todos. Se utilizarán funciones de activación. La función de activación lineal reemplaza (...). Si este es el caso, ¿tenemos que llamar a la policía?
Pegue una imagen del documento original directamente para una fácil explicación.
Primero, echemos un vistazo al módulo residual. La entrada primero se comprime mediante convolución, luego la convolución se usa para la extracción de características y finalmente la convolución se usa para devolver el número de convolución de todo el canal. Todo el proceso es "reducción de dimensionalidad-actualización de convolución", por lo que este proceso es "reducción de dimensionalidad", por lo que todo el proceso es "reducción de dimensionalidad-actualización de convolución". Todo el proceso es "reducción de dimensionalidad-convolución-mejora de dimensionalidad", cuyo propósito es reducir la cantidad de cálculo del módulo y mejorar la eficiencia de cálculo de todo el módulo residual.
Luego miramos el módulo residual invertido. La entrada se somete primero a la convolución de expansión del canal, luego a la convolución de profundidad y finalmente a la convolución de compresión del número de canal, y regresa a "Promoción de dimensiones - Convolución - El proceso. El concepto de "reducción de dimensiones" es similar al módulo residual estándar, que es "reducción de dimensiones-mejora de dimensiones".
Todo el proceso es "convolución ascendente-convolución descendente", por lo que todo el proceso es lo opuesto al módulo residual estándar.
La siguiente es una imagen robada de la Figura 2, que es muy clara.
La razón del aumento de dimensionalidad es que la profundidad en sí no tiene la capacidad de cambiar el número de canales. En dimensiones bajas, el rendimiento es muy pobre, por lo que es necesario aumentar la dimensionalidad para mejorar la precisión.
Dicho esto, se han introducido los dos puntos innovadores de este artículo. Aquí hay otro diagrama de bloques 1 de V2.
Por supuesto, todavía necesitamos compararlo con V1. Aquí hay otro. Figura 2 de Zhang Dao,
En este punto, toda la sensación de MobileNetV2 ha sido muy clara. La arquitectura de red específica y los resultados experimentales no se detallarán en este artículo. en papel ~~ Los resultados en papel son, en última instancia, superficiales. Este artículo no dará más detalles sobre la arquitectura de red específica y los resultados experimentales. Todos los documentos están presentados allí y son fáciles de entender ~~
------------- -. ----El tercer Guliang--Resumen------------------
En este punto, la idea central de todo el artículo ha sido muy claro. Este artículo propone principalmente otra arquitectura de red liviana, MobileNetV2, basada en MobileNets, y demuestra la viabilidad de la red a través de experimentos, sentando las bases para el desarrollo posterior.
Para resumir brevemente, primero enumeraré el resumen del artículo, luego presentaré las ideas del autor en detalle y expresaré brevemente mi comprensión de toda la arquitectura de red MobileNetV2. Espero que después de leer este artículo, pueda profundizar aún más su comprensión de este artículo. Si hay algo inapropiado, indíquelo, comuníquese más y avancemos juntos.
Referencias:
1 /p/70703846
2 /p/67872001 .