Notas de lectura: fichas visuales SoViT Mind para transformador de visión
El punto de partida de este artículo incluye dos aspectos:
1. ViT es una estructura transformadora pura, que elimina algunos sesgos inductivos en CNN, lo que hace que tenga que depender de una escala mayor. El conjunto de datos se utiliza para aprender este sesgo, de modo que el rendimiento del modelo obtenido mediante el entrenamiento en escala central sea mucho menor que el de la estructura CNN.
2. En el método ViT y la serie de métodos basados en ViT, se introduce un token de clase y las características del token de clase emitido por el codificador se utilizan para la clasificación, pero la semántica contenida en cada uno Los tokens de parche se ignoran. Información
Por lo tanto, el trabajo principal de este artículo es diseñar dos módulos respectivamente para los dos aspectos anteriores. Como se muestra en la Figura 1, su núcleo central y ViT son iguales. En 'Un módulo pequeño y jerárquico', en realidad es una columna vertebral de CNN simplificada; en 'Agrupación de covarianza cruzada de segundo orden', es esencialmente un método de agrupación de características. Estamos en CCT Escapando del paradigma de big data con transformadores compactos. Ese artículo también vino. en contacto con métodos de agrupación similares. El método de seqpooling propuesto allí es esencialmente una idea de promedio ponderado.
[Error en la carga de la imagen...(image-27f07a-1619591409974)]
Similar al método T2T, para procesar mejor datos pequeños y medianos desde cero, el misma introducción Se elimina el sesgo inductivo, pero la introducción de este sesgo no afecta la columna vertebral, es decir, la estructura de ViT, por lo que solo puede operar en la entrada. T2T utiliza un módulo T2T multicapa, que es esencialmente una columna vertebral de CNN simplificada. Su estructura más básica es:
[Error en la carga de la imagen...(image-8f6163-1619591409974)]
Por supuesto, se pueden usar diferentes estructuras clásicas de CNN en esta parte del En la etapa intermedia, por ejemplo, red densa, red resnet, red inicial, etc., el tamaño del mapa de características final es 8 veces menor que la imagen original. La última capa convolucional 1x1 asigna la dimensión de la característica al tamaño de entrada de la columna vertebral. Puedo encontrar que la columna vertebral aquí no es nada. Nada ha cambiado.
ViT solo utiliza las características del token de clase para la clasificación final, y la investigación cree que el token de parche de salida final (token visual) también contiene información semántica que es beneficiosa para la clasificación, por lo que el token de clase y el token de parche pueden ser combinado Combinado para clasificación. La idea más directa es fusionar la función de agrupación promedio y el token de clase del token de parche. Este artículo utiliza agrupación de segundo orden, también conocida como agrupación bilineal.
La idea principal de la agrupación de segundo orden es utilizar la correlación entre características obtenidas por diferentes mecanismos para caracterizar la imagen. Específicamente, las características obtenidas por la misma muestra de diferentes maneras son, por lo que la correlación entre características es en realidad la matriz de covarianza entre X e Y, por lo que es el resultado de su agrupación de segundo orden.
En ViT, cada muestra se divide en diferentes tokens de parche. Cada token de parche corresponde a una característica, por lo que se puede obtener por separado mediante dos transformaciones lineales.
[Error en la carga de la imagen...(image-4c4af7-1619591409973)]
La parte experimental es relativamente suficiente.
[Error en la carga de la imagen...(image-c3053c-1619591409973)] [Error en la carga de la imagen...(image-fb94eb-1619591409973)]
[Error en la carga de la imagen... .(image-6c2bee-1619591409973)]
[Error en la carga de la imagen...(image-3d0b1-1619591409973)]
Referencias
/content_cvpr_2018/ papers /Koniusz_A_Deeper_Look_CVPR_2018_paper.pdf