Red de conocimiento informático - Problemas con los teléfonos móviles - [ECCV2020] Traducción en papel: preste atención al área de caracteres del posicionamiento del texto

[ECCV2020] Traducción en papel: preste atención al área de caracteres del posicionamiento del texto

El detector de texto de escena consta de módulos de detección y reconocimiento de texto. Se han realizado muchos estudios para unificar estos módulos en modelos entrenables de un extremo a otro para lograr un mejor rendimiento. La estructura típica es colocar los módulos de detección y reconocimiento en una rama separada, y generalmente se usa la agrupación de RoI para que esta rama disfrute de características visuales. Sin embargo, todavía existen oportunidades para establecer conexiones más complementarias entre módulos cuando se emplea un reconocedor que utiliza decodificadores y detectores basados ​​en la atención para representar la información espacial de las regiones de caracteres. Esto es posible porque ambos módulos * * * comparten la misma subtarea, que encontrará la ubicación de la región del carácter. Basándonos en estos conocimientos, construimos un modelo de tubo único estrechamente acoplado. Esta estructura se forma utilizando la salida de detección como entrada al reconocedor y propagando la pérdida de reconocimiento durante la etapa de detección. El uso del mapa de puntuación de caracteres ayuda al reconocedor a prestar más atención al punto central del carácter, y la propagación de la pérdida de reconocimiento al módulo detector mejorará la localización de la región del carácter. Además, una etapa de *disfrute* mejorada permite la corrección de funciones y el posicionamiento de límites de áreas de texto con formas arbitrarias. Amplios experimentos demuestran el rendimiento de última generación en conjuntos de datos de referencia lineales y curvos disponibles públicamente.

La localización de textos de escenas, incluida la detección y el reconocimiento de texto, ha atraído una gran atención en los últimos años debido a su amplia aplicación en la traducción instantánea, la recuperación de imágenes y el análisis de escenas. Aunque los detectores y reconocedores de texto existentes son eficaces para texto horizontal, encontrar instancias de texto curvo en imágenes de escenas sigue siendo un desafío.

Para encontrar texto curvo en imágenes, un enfoque clásico es conectar en cascada los modelos de detección y reconocimiento existentes para gestionar instancias de texto en cada lado. Los detectores [32, 31, 2] intentan capturar las propiedades geométricas del texto curvo aplicando técnicas complejas de posprocesamiento, mientras que los reconocedores aplican codificación multidireccional [6] o emplean módulos de corrección [37, 46, 11] para mejorar el reconocimiento. Precisión de la herramienta para texto curvo.

Con el desarrollo del aprendizaje profundo, se han realizado investigaciones sobre la combinación de detectores y reconocedores en una red de extremo a extremo que se pueden entrenar juntos [14, 29]. Tener un modelo unificado no sólo mejora la eficiencia dimensional y la velocidad del modelo, sino que también ayuda al modelo a aprender a disfrutar de las funciones, mejorando así el rendimiento general. Para beneficiarnos de esta propiedad, también intentamos utilizar modelos de extremo a extremo [32, 34, 10, 44] para manejar instancias de texto curvo. Sin embargo, la mayoría de los trabajos existentes solo utilizan la agrupación de regiones de interés para detectar e identificar características subyacentes entre ramas. Durante la fase de entrenamiento, la capa de entidades *enjoy se entrena mediante pérdidas de detección y reconocimiento en lugar de entrenar toda la red.

Como se muestra en la Figura 1, proponemos un novedoso modelo de localización de texto de atención de área de caracteres de extremo a extremo llamado CRAFTS. En lugar de aislar los módulos de detección y reconocimiento en dos ramas separadas, construimos una única canalización estableciendo conexiones complementarias entre los módulos. Se observa que los reconocedores [1] que utilizan decodificadores y detectores [2] basados ​​en la atención que encapsulan información espacial de caracteres comparten una subtarea común que se utiliza para localizar regiones de caracteres. Al integrar estrechamente estos dos módulos, la salida de la etapa de detección puede ayudar al reconocedor a identificar mejor el punto central del carácter, y la pérdida del reconocedor a la etapa del detector mejorará la posición de la región del carácter. Además, la red puede maximizar la calidad de las representaciones de características utilizadas en subtareas comunes. Hasta donde sabemos, este es el primer trabajo de extremo a extremo que establece pérdidas estrechamente acopladas.

Nuestras contribuciones se resumen a continuación:

(1) Proponemos una red de extremo a extremo que puede detectar y reconocer texto con formas arbitrarias.

(2) Utilice la información de características espaciales de los detectores en los módulos de corrección y reconocimiento para construir una relación complementaria entre los módulos.

(3) Cree un canal único distribuyendo la pérdida de reconocimiento en todas las funciones de toda la red.

(4) Logramos un rendimiento de última generación en conjuntos de datos IC13, IC15, IC19-MLT y TotalText [20, 19, 33, 7], que contienen una gran cantidad de niveles, curvas y textos multilingües.

Métodos de detección y reconocimiento de texto

Las redes de detección se generan utilizando métodos basados ​​en regresión [16, 24, 25, 48] o basados ​​en segmentación [9, 31, 43, 45]. Cuadro delimitador de texto. Algunos métodos recientes, como [17, 26, 47], toman Mask-RCNN [13] como red básica y obtienen ventajas de los métodos de regresión y segmentación al adoptar el aprendizaje multitarea. En términos de unidades de detección de texto, todos los métodos también pueden depender de la subclasificación utilizando predicciones a nivel de palabra o de carácter [16, 2].

Los reconocedores de texto suelen adoptar extractores de características basados ​​en CNN y generadores de secuencias basados ​​en RNN y se clasifican según sus generadores de secuencia. Clasificación temporal conexionista (CTC) [35] y decodificadores secuenciales basados ​​en la atención [21, 36]. Los modelos de detección proporcionan información sobre regiones de texto, pero extraer información útil de texto con formas arbitrarias sigue siendo un desafío para los reconocedores. Para ayudar a identificar texto irregular procesado por la red, algunos estudios [36, 28, 37] utilizan redes de transformación espacial (STN) [18]. Además, los artículos [11, 46] amplían aún más el uso de STN realizando métodos de corrección de forma iterativa. Estos estudios muestran que ejecutar STN de forma recursiva ayuda al reconocedor a extraer características útiles de texto extremadamente curvo. En [27], se propone una capa RoIWarp recurrente para cortar caracteres individuales antes de reconocerlos. Este trabajo demuestra que la tarea de encontrar regiones de caracteres está estrechamente relacionada con el mecanismo de atención utilizado en los decodificadores basados ​​en la atención.

Una forma de construir un modelo de ubicación de texto es colocar redes de detección y reconocimiento de forma secuencial. La conocida arquitectura de dos etapas combina un detector TextBox y un reconocedor CRNN [35]. En resumen, este método logró buenos resultados.

Uso de extremo a extremo del reconocedor basado en RNN

EAA [14] y FOTS [29] son ​​modelos de extremo a extremo basados ​​en el detector EAST [49]. La diferencia entre estas dos redes es el reconocedor. El modelo FOTS utiliza un decodificador CTC [35], mientras que el modelo EAA utiliza un decodificador de atención [36]. La capa de transformación afín realiza la función de fusionar en ambas obras. La transformación afín propuesta funciona bien en texto horizontal, pero muestra limitaciones cuando se trata de texto con forma arbitraria. TextNet [42] propone un reconocedor de texto con reconocimiento de espacio que realiza una transformación de RoI en perspectiva en la capa de agrupación de características. La red conserva capas RNN para identificar secuencias de texto en mapas de características 2D, pero aún presenta limitaciones en la detección de texto curvo debido a la falta de cuadriláteros expresivos.

Qin et al. [34] propusieron una red de extremo a extremo basada en Mask-RCNN [13]. Con las sugerencias del cuadro, disfrute de las funciones de combinación de capas de *** y filtre el desorden del fondo mediante el uso de capas de máscara de ROI. El método propuesto mejora su rendimiento al garantizar que la atención se centre únicamente en el área del texto. Busta y otros propusieron redes de observadores de texto profundo y ampliaron su trabajo en E2E-MLT. La red consta de un detector basado en FPN y un reconocedor basado en CTC. El modelo predice múltiples idiomas de un extremo a otro.

Uso de un extremo a otro de reconocedores basados ​​en CNN

Cuando se trata de texto con formas arbitrarias, la mayoría de los modelos basados ​​en CNN tienen ventajas en el reconocimiento de texto a nivel de caracteres. MaskTextSpotter [32] es un modelo que utiliza métodos de segmentación para reconocer texto. Aunque tiene ventajas a la hora de detectar y reconocer caracteres individuales, es difícil entrenar la red ya que normalmente no proporciona anotaciones a nivel de caracteres en conjuntos de datos públicos. CharNet [44] es otro método basado en segmentación que puede realizar predicciones a nivel de caracteres. Supere el problema de la falta de anotaciones a nivel de carácter entrenando el modelo con una supervisión débil. Durante el entrenamiento, el método realiza una detección iterativa de caracteres para crear una pseudoverdad fundamental.

Aunque los reconocedores basados ​​en segmentación han logrado un gran éxito, este enfoque se ve afectado cuando aumenta el número objetivo de caracteres.

A medida que aumenta el número de conjuntos de caracteres, los modelos basados ​​en segmentación requieren más canales de salida, lo que aumenta los requisitos de memoria. La versión de revista de MaskTextSpotter [23] amplía el conjunto de caracteres para manejar varios idiomas, pero los autores añaden un decodificador basado en RNN en lugar de utilizar su reconocedor original basado en CNN. Otra limitación de los reconocedores basados ​​en segmentación es la falta de información contextual en la rama de reconocimiento. Debido a la falta de modelado secuencial como RNN, la precisión del modelo disminuye con imágenes ruidosas.

TextDragon [10] es otro método basado en segmentación para localizar e identificar instancias de texto. Sin embargo, no hay garantía de que los segmentos de caracteres previstos cubran una única región de caracteres. Para resolver este problema, el modelo introduce CTC para eliminar caracteres superpuestos. La red mostró un buen rendimiento de detección, pero mostró limitaciones en el reconocedor debido a la falta de modelado secuencial.

Se eligió el detector CRAFT [2] como red básica debido a su capacidad para expresar información semántica en áreas de caracteres. La salida de la red CRAFT representa las probabilidades centrales de las regiones de caracteres y sus conexiones. Debido a que el objetivo de estos dos módulos es localizar la posición central del carácter, asumimos que esta información del centro del carácter se puede utilizar para respaldar el módulo de atención en el reconocedor. En este trabajo, realizamos tres cambios al modelo de nave original: reemplazo del tronco, representación de la conexión y estimación de la orientación;

Reemplazo de la columna vertebral

Investigaciones recientes han demostrado que utilizando ResNet50, es posible capturar representaciones claras de características definidas por detectores y reconocedores [30, 1]. Por lo tanto, cambiamos la red troncal de VGG-16 [40] a ResNet50 [15].

Representación conjunta

El texto vertical es poco común en los textos latinos, pero ocurre con frecuencia en idiomas del este de Asia como el chino, el japonés y el coreano. En este trabajo, se utilizan líneas centrales binarias para conectar regiones de caracteres consecutivas. La razón de este cambio es que el uso de diagramas de afinidad sin formato en texto vertical tiende a producir transformaciones de perspectiva mal planteadas que generan coordenadas de fotograma no válidas. Para generar un gráfico conectado de verdad fundamental, dibuje un segmento de línea de espesor t entre caracteres adyacentes. Aquí t = max ((d1 d 2)/2 * α, 1), donde d1 y d 2 son las longitudes diagonales de cuadros de caracteres adyacentes y α es el factor de escala. Usando esta ecuación, el ancho de la línea central puede ser proporcional al tamaño del carácter. En la implementación, establecemos α en 0,1.

Estimación de la orientación

Obtener la orientación correcta del cuadro de texto es importante porque las coordenadas del marco deben definirse claramente durante la etapa de reconocimiento para reconocer correctamente el texto. Para ello, agregamos dos canales de salida durante la etapa de detección. Los canales se utilizan para predecir el ángulo del personaje a lo largo de los ejes X e Y. para generar verdad fundamental para gráficos dirigidos.

* * * Enjoy stage incluye dos módulos: módulo de corrección de texto y módulo de atención del área de caracteres (CRA). La transformación Thin Plate Spline (TPS) [37] se utiliza para corregir áreas de texto con formas arbitrarias. Inspirado en [46], nuestro módulo de corrección combina TPS iterativo para representar mejor las regiones de texto. La geometría curva del texto en una imagen se puede mejorar actualizando de forma atractiva los puntos de control. A través de estudios empíricos, encontramos que tres iteraciones de TPS son suficientes para la corrección.

Los módulos TPS típicos toman imágenes de palabras como entrada, pero proporcionamos gráficos de área de caracteres y gráficos de conexión porque encapsulan la información geométrica del área de texto. Usamos 20 puntos de control para cubrir firmemente el área de texto curva. Para utilizar estos puntos de control como resultados de detección, se convierten en coordenadas de imagen de entrada sin formato. Opcionalmente, podemos realizar un ajuste polinómico 2D para suavizar los polígonos delimitadores. En la Figura 4 se muestra un ejemplo de TPS iterativo y salida final de polígono suavizado.

Los módulos para la fase de identificación se conformaron en base a los resultados reportados en [1]. La etapa de reconocimiento consta de tres partes: extracción de características, modelado de secuencia y predicción. Debido a que el módulo de extracción de características utiliza características semánticas de alto nivel como entrada, es más liviano que un reconocedor único.

La arquitectura detallada del módulo de extracción de características se muestra en la Tabla 1.

Después de extraer características, se aplica un LSTM bidireccional al modelado de secuencias, seguido de un decodificador basado en la atención para la predicción del texto final.

En cada paso de tiempo, el reconocedor basado en la atención decodificará la información del texto enmascarando la salida de atención de las características. Aunque el módulo de atención funciona bien en la mayoría de los casos, no puede predecir caracteres cuando los puntos de atención están fuera de lugar o desaparecen [5, 14]. La Figura 5 muestra el efecto del uso del módulo CRA. Los puntos de atención adecuados pueden realizar predicciones de texto confiables.

La pérdida final L del entrenamiento consta de pérdida de detección y pérdida de reconocimiento, tomando L = Ldet Lreg. Todo el proceso de determinación de pérdidas se muestra en la Figura 6. La pérdida fluye a través de los pesos en la etapa de reconocimiento y se propaga a la etapa de detección a través del módulo de atención de la región de caracteres.

Por otro lado, la pérdida de detección se utiliza como pérdida intermedia, por lo que las pérdidas de detección y reconocimiento se utilizan para actualizar los pesos antes de la etapa de detección.

El conjunto de datos en inglés IC13 [20] consta de imágenes de alta resolución, 229 imágenes para entrenamiento y 233 imágenes para prueba. Los cuadros rectangulares se utilizan para anotar instancias de texto a nivel de palabra. IC15 [20] contiene 1000 imágenes de entrenamiento y 500 imágenes de prueba. Los cuadros cuadriláteros se utilizan para anotar instancias de texto a nivel de palabra. Texto total[7]

Tiene 1255 imágenes de entrenamiento y 300 imágenes de prueba. A diferencia de los conjuntos de datos IC13 e IC15, contiene ejemplos de texto curvo y está anotado mediante puntos poligonales.

El conjunto de datos multilingüe IC 19 [33] contiene 10.000 imágenes de entrenamiento y 10.000 imágenes de prueba. El conjunto de datos contiene texto en 7 idiomas diferentes anotados con puntos cuadriláteros.

Entrenamos conjuntamente el detector y reconocedor en el modelo CRAFTS. Para entrenar la fase de detección, seguimos el método de entrenamiento débilmente supervisado descrito en [2]. La pérdida de reconocimiento se calcula muestreando aleatoriamente las características de las palabras cortadas en lotes en cada imagen. El recuento máximo de palabras por imagen se establece en 16 para evitar errores de falta de memoria. El aumento de datos en el detector aplica técnicas como recorte, rotación y cambios de color. Para el reconocedor, las esquinas del marco de verdad fundamental están codificadas en el rango de 0 a 10 para la corta longitud del marco.

Primero, el modelo se entrena de forma iterativa durante 50k en el conjunto de datos de SynthText [12] y luego entrenamos aún más la red en el conjunto de datos de destino. Se utiliza el optimizador Adam y se aplica Online Hard Negative Mining (OHEM) [39] para forzar una proporción de 1:3 de píxeles positivos y negativos para detectar abandonos. Al ajustar el modelo, el conjunto de datos de SynthText se mezcla en una proporción de 1:5. Usamos 94 caracteres para cubrir letras, números y caracteres especiales, y 4267 caracteres para conjuntos de datos multilingües.

Conjuntos de datos horizontales (IC13, IC15)

Para lograr el punto de referencia de IC13, tomamos el modelo entrenado en el conjunto de datos SynthText y lo realizamos en los conjuntos de datos IC13 e IC19. Ajuste fino. Durante la inferencia, ajustamos el lado largo de la entrada a 1280.

Los resultados muestran importantes mejoras de rendimiento en comparación con las técnicas de última generación.

El modelo entrenado en el conjunto de datos IC13 luego se ajusta en el conjunto de datos IC15. Durante la evaluación, el tamaño de entrada del modelo se estableció en 2560x1440. Tenga en cuenta que realizamos una evaluación universal sin un conjunto de vocabulario común. Los resultados cuantitativos para los conjuntos de datos IC13 e IC15 se enumeran en la Tabla 2.

Los mapas de calor se utilizan para ilustrar mapas de áreas de caracteres y mapas de conexión, donde los valores de ángulo de píxel ponderados se visualizan en el espacio de color HSV.

Como se muestra en la figura, la red localizó con éxito regiones poligonales y reconoció caracteres en regiones de texto curvo. Los dos gráficos en la esquina superior izquierda muestran ejemplos de reconocimiento exitoso de texto completamente girado y muy curvado.

Atención de región de caracteres-Atención asistida

En esta sección, estudiamos cómo la Atención de región de caracteres (CRA) afecta el rendimiento del reconocedor al entrenar una red independiente sin CRA.

La Tabla 5 muestra el efecto del uso de CRA en el conjunto de datos de referencia.

Sin CRA, observamos una degradación del rendimiento en todos los conjuntos de datos. Especialmente en el conjunto de datos de perspectiva (IC15) y el conjunto de datos de curva (TotalText), observamos brechas más grandes que en el conjunto de datos horizontal (IC13). Esto significa que cuando se trata de texto irregular, el rendimiento del reconocedor se puede mejorar enviando información de atención de los caracteres. (? Los datos experimentales en la tabla son más efectivos para textos de larga duración. No sé cómo se llegó a esta conclusión).

La importancia de la estimación de la dirección

Desde entonces Hay muchas imágenes de texto de escena Texto multidireccional, por lo que la estimación de la orientación es muy importante. Nuestro esquema de promedio de píxeles es útil para discriminadores que reciben características bien definidas. Comparamos los resultados de los modelos cuando no se utiliza información de orientación. En el conjunto de datos IC15, el rendimiento cae de 74,9 a 74,1 (-0,8), y en el conjunto de datos TotalText, la media h cae de 78,7 a 77,5 (-1,2). Los resultados muestran que utilizar la información de ángulo correcta puede mejorar el rendimiento de la rotación de texto.

Velocidad de inferencia

Dado que la velocidad de inferencia varía con el tamaño de la imagen de entrada, medimos FPS en diferentes resoluciones de entrada, siendo el lado largo de cada resolución 960 y 1280 respectivamente. 1600 y 2560. Los FPS obtenidos de los resultados de la prueba son 9,9, 8,3, 6,8 y 5,4 respectivamente. Para todos los experimentos, utilizamos GPU Nvidia P40 e Intel. ¿Más fuerte? CPU En comparación con los 8,6 FPS del detector CRAFT basado en VGG, la red CRAFT basada en ResNet puede lograr FPS más altos con la misma entrada. Además, el uso de puntos de control directamente desde el módulo de corrección alivia la necesidad de posprocesamiento de la generación de polígonos.

Problema de diferencia de granularidad

Presumimos que la diferencia de granularidad entre los datos reales y los fotogramas predichos conduce a un rendimiento de detección relativamente bajo en el conjunto de datos IC15. Los métodos de segmentación a nivel de caracteres tienden a generalizar la conectividad de los caracteres basándose en señales espaciales y de color en lugar de capturar todas las características de las instancias de palabras. Por lo tanto, la salida no sigue el estilo de anotación de los cuadros requerido por el punto de referencia. La Figura 9 muestra un caso de falla en el conjunto de datos IC15, lo que demuestra que los resultados de detección se marcan como incorrectos cuando observamos un resultado cualitativo aceptable.

En este artículo, proponemos un modelo monocanal entrenable de extremo a extremo que combina estrechamente los módulos de detección y reconocimiento. * * * Disfrute del enfoque en el área del personaje durante la etapa de disfrute, haciendo pleno uso del mapa del área del personaje para ayudar al reconocedor a corregir y participar mejor en el área de texto. Además, diseñamos la pérdida de reconocimiento para que se propague en la etapa de detección, lo que mejora la capacidad de localización de caracteres del detector. Además, * * * El módulo de modificación de la etapa Enjoyment puede posicionar con precisión texto curvo sin la necesidad de desarrollar un posprocesamiento manual. Los resultados experimentales verifican el rendimiento de última generación de CRAFTS en diferentes conjuntos de datos.