Red de conocimiento informático - Material del sitio web - Cómo guardar información de imagen bmp en formato de texto

Cómo guardar información de imagen bmp en formato de texto

Guardar en la computadora. Luego use el sistema de reconocimiento ORC para la conversión y finalmente use WORD para modificar y editar. A continuación se explica cómo utilizar ORC:

OCR es la abreviatura de reconocimiento óptico de caracteres en inglés. Traducido al chino, significa reconocer texto a través de tecnología óptica. Es un aspecto importante de la investigación y aplicación de la tecnología de reconocimiento automático. Es una tecnología que puede reconocer texto automáticamente en un software de computadora. Es el software principal que se combina con un escáner. Pertenece a la categoría de entrada sin teclado. El dispositivo de entrada de imágenes requerido es principalmente un escáner. El OCR actual se refiere principalmente al software de reconocimiento de texto. En 1996, Tsinghua Unigroup comenzó a admitir software de reconocimiento chino. Anteriormente, los escáneres y el software OCR se vendían por separado. El software OCR profesional también se actualiza constantemente. Ahora los fabricantes de escáneres tienen a la venta software OCR profesional con sus propios escáneres. El rápido desarrollo de la tecnología OCR es inseparable del uso generalizado de los escáneres. En los últimos dos años, con la popularización gradual de los escáneres y la mejora continua de la tecnología OCR, el OCR se ha convertido en un poderoso asistente para la mayoría de los usuarios de escáneres.

1. Desarrollo de la tecnología OCR

Desde que comenzó a aparecer la primera generación de productos OCR a principios de los años 60, después de más de 30 años de desarrollo y mejora continua, se han desarrollado diversos tipos de OCR. Los productos, incluida la escritura a mano, tienen investigaciones sobre tecnología OCR que han logrado resultados notables. Los requisitos funcionales de las personas para los productos OCR también han cambiado desde el enfoque inicial en la tasa de reconocimiento, la velocidad de reconocimiento, la facilidad de uso de la interfaz de usuario, la facilidad de uso de la interfaz de usuario, la facilidad de uso de la interfaz de usuario, la facilidad de uso de la interfaz de usuario. interfaz de usuario facilidad de uso sexo, facilidad de uso, facilidad de uso, facilidad de uso, facilidad de uso, facilidad de uso, facilidad de uso, facilidad de uso, facilidad de uso, facilidad de uso, facilidad de uso sexo, facilidad de uso. , facilidad de uso, facilidad de uso, facilidad de uso, facilidad de uso, facilidad de uso, facilidad de uso, facilidad de uso. Se han planteado requisitos más altos en términos de velocidad de reconocimiento, facilidad de interfaz de usuario, facilidad de operación, estabilidad del producto, adaptabilidad, confiabilidad y escalabilidad, y calidad del servicio preventa y posventa.

IBM fue la primera empresa en desarrollar productos OCR. En 1965, exhibió el producto OCR de IBM: IBMl287 en la Feria Mundial de Nueva York. En aquel momento, este producto sólo podía reconocer números impresos, letras y algunos símbolos, y debían estar en fuentes específicas. la década de 1960, Hitachi y Fujitsu, y finales del siglo XX. A finales de la década de 1960, Hitachi y Fujitsu también desarrollaron sus propios productos OCR. La japonesa Toshiba desarrolló el primer sistema automático de clasificación de cartas del mundo que reconocía códigos postales escritos a mano, y NEC hizo lo mismo dos años después. En 1974, la tasa de clasificación automática de cartas alcanzó aproximadamente el 92% y se utilizó ampliamente en el sistema postal y desempeñó un buen papel. En 1983, Toshiba lanzó su sistema OCR OCRV595 para reconocer caracteres kanji japoneses impresos, con una velocidad de reconocimiento de 70 a 100 caracteres por segundo y una tasa de reconocimiento de 99,5. Posteriormente, Toshiba inició una investigación sobre el reconocimiento de los kanji japoneses escritos a mano.

La investigación de mi país sobre la tecnología OCR comenzó relativamente tarde. La investigación sobre la tecnología de reconocimiento de números, letras y símbolos comenzó en la década de 1970, y la investigación sobre el reconocimiento de caracteres chinos comenzó a finales de la década de 1970. En 1986, el Plan Nacional 863 organizó tres unidades en el campo de la información: la Universidad de Tsinghua, el Instituto de Ingeniería de la Información de Beijing y el Instituto de Investigación de Automatización de Shenyang. En 1986, el Plan Nacional 863 organizó tres unidades en el campo de la información: la Universidad de Tsinghua, el Instituto de Beijing. de Ingeniería de la Información y el Instituto de Automatización de Shenyang, llevan a cabo el desarrollo del software OCR chino.

En 1989, la Universidad de Tsinghua tomó la iniciativa en el lanzamiento del primer conjunto de software de OCR chino: Tsinghua Wentong TH-OCR versión 1.0, que se trasladó oficialmente del laboratorio al mercado. Después del software de reconocimiento de caracteres chinos impresos OCR, Tsinghua lanzó el sistema de reconocimiento de caracteres chinos impresos multifuncional, de alto rendimiento, práctico, simplificado y tradicional, TH-OCR 92, que logró avances significativos en la tecnología de reconocimiento de caracteres chinos impresos. En 1994, el sistema de reconocimiento de texto impreso mixto chino e inglés de alto rendimiento TH-OCR 94 fue calificado por expertos como "el primer sistema de reconocimiento de texto impreso mixto chino e inglés lanzado en el país y en el extranjero, y generalmente se encuentra en el nivel líder a nivel mundial. " A mediados y finales de la década de 1990, el Departamento de Ingeniería Electrónica de la Universidad de Tsinghua propuso y llevó a cabo una investigación exhaustiva sobre el reconocimiento de caracteres chinos, lo que hizo que la tecnología de reconocimiento de caracteres chinos fuera popular en campos como el texto impreso, el reconocimiento de caracteres chinos escritos a mano en línea y el reconocimiento de caracteres chinos escritos a mano fuera de línea. El reconocimiento de caracteres chinos y el reconocimiento de símbolos de dígitos escritos a mano sin conexión lograron un desarrollo integral y lograron resultados importantes. Uno de los logros representativos es el sistema integral de reconocimiento de caracteres chinos TH-OCR 97, que puede completar la entrada de reconocimiento de texto impreso en varios idiomas (chino, inglés, japonés), caracteres chinos escritos a mano en línea, caracteres chinos escritos a mano fuera de línea y números escritos a mano. En los últimos años, además de Tsinghua Wentong TH-OCR, también han aparecido otros software de OCR con diferentes estilos, como Shangshu SH-OCR. El mercado chino de OCR se ha expandido constantemente y cuenta con usuarios en todo el mundo.

Se puede decir que la tecnología actual de reconocimiento OCR de impresión ha alcanzado un nivel muy alto. Los productos OCR han evolucionado desde ser capaces de reconocer solo números, letras y algunos símbolos en impresiones específicas en los primeros días a poder realizar automáticamente análisis de diseño, reconocimiento de tablas, texto mixto, múltiples fuentes, múltiples tamaños de fuente, reconocimiento mixto horizontal y vertical. y otras potentes funciones. Herramienta de entrada rápida de información informática. La tasa de reconocimiento de caracteres chinos impresos llega a más de 98, e incluso para caracteres chinos con mala calidad de impresión, la tasa de reconocimiento puede llegar a más de 95. Puede reconocer caracteres chinos simplificados y tradicionales, como la fuente Song, la fuente Hei, la fuente Kai y la fuente Faux Song. Puede reconocer composiciones tipográficas mixtas de múltiples fuentes y diferentes tamaños de fuente, y la tasa de reconocimiento de caracteres chinos escritos a mano es superior al 70%. En particular, después de más de diez años de arduo trabajo, la tecnología OCR china de mi país ha superado dificultades como un inicio tardío y un conjunto extremadamente grande de caracteres chinos. La velocidad de reconocimiento de un solo carácter (refiriéndose a la cantidad de caracteres completados). extracción de características para resultados de salida de reconocimiento en una unidad de tiempo) puede alcanzar 70 palabras/segundo o más. Dado que la tecnología de reconocimiento de caracteres chinos OCR impreso es relativamente madura, los productos OCR se utilizan ampliamente en diversas industrias como el periodismo, la imprenta, las publicaciones, las bibliotecas y la automatización de oficinas.

Los productos OCR profesionales son en su mayoría específicos de la industria, es decir, son adecuados para departamentos que necesitan procesar una gran cantidad de formularios para ingresar información todos los días, como servicios postales, impuestos, aduanas, estadísticas, etc. Este sistema de OCR profesional específico de la industria tiene un formato relativamente fijo y reconoce un conjunto relativamente pequeño de caracteres. A menudo se usa junto con dispositivos de entrada especializados, por lo que es rápido, eficiente y sofisticado, como los sistemas de clasificación automática de correo.

El reconocimiento de manuscritos no apareció hasta 1996 o 1997 y se ofrecía como una función complementaria a los productos de reconocimiento de manuscritos impresos. Dado que los hábitos de escritura de las personas varían mucho, es bastante difícil realizar un reconocimiento de escritura gratuito. Por lo tanto, en el campo de la tecnología OCR de escritura a mano, se utiliza el reconocimiento de escritura a mano en línea, es decir, la persona escribe mientras la computadora la reconoce, lo cual es real. Método de reconocimiento de tiempo.

2. El principio básico de OCR

En pocas palabras, el principio básico de OCR es ingresar la imagen del manuscrito en la computadora a través del escáner y luego en la computadora. Saca la imagen de cada texto y la convierte en codificación de caracteres chinos. El proceso de trabajo específico es que el escáner convierte la señal óptica del manuscrito chino en una señal eléctrica a través de un dispositivo de carga acoplada (CCD), y luego la convierte en una señal digital a través de un convertidor de analógico a digital y la transmite a la computadora. La computadora recibe imágenes digitales de manuscritos, en los que los caracteres chinos pueden estar impresos o escritos a mano, y luego reconoce los caracteres chinos en estas imágenes. Para el texto impreso, el material del documento primero se convierte ópticamente en un archivo de imagen original de matriz de puntos en blanco y negro, y luego el software de reconocimiento convierte el texto de la imagen en formato de texto para su posterior procesamiento mediante el software de procesamiento de textos. Entre ellos, el reconocimiento de texto es una tecnología importante de OCR.

1. Dos formas de reconocimiento OCR

Al igual que otros datos de información, en el ordenador, toda la información gráfica capturada por el escáner utiliza los dos números 0 y 1. Para registrar e identificar, toda la información es solo una serie de puntos o puntos de muestra almacenados en 0 y 1. Para identificar la información de caracteres en la página, el programa de reconocimiento OCR realiza principalmente el reconocimiento de caracteres a través de dos métodos: método de coincidencia de patrones unitarios y método de extracción de características.

El método de identificación de coincidencia de patrones unitarios (Pattern Matching) es una comparación no estricta de cada carácter con la fuente estándar y el mapa de bits de tamaño de fuente guardado en el archivo. Si la aplicación tiene una gran base de datos de caracteres guardados, entonces la aplicación seleccionará los caracteres correctos para la coincidencia correcta. El software debe utilizar algún tipo de técnica de procesamiento para encontrar la coincidencia más similar, generalmente probando constantemente diferentes versiones del mismo personaje para comparar. Algunos programas pueden escanear una página de texto e identificar cada carácter que define una nueva fuente. Algunos programas utilizan su propia tecnología de reconocimiento para identificar tantos caracteres en la página como sea posible y luego seleccionan manualmente o ingresan directamente caracteres no reconocidos.

La extracción de características (FE) es un método de reconocimiento que divide cada carácter en muchas características diferentes, incluidas líneas diagonales, líneas horizontales y curvas. Estas características, a su vez, se relacionan con caracteres comprendidos (reconocidos). Por ejemplo, si la aplicación reconoce dos líneas horizontales, "piensa" que ese carácter podría ser "2". La ventaja del método de extracción de características es que puede reconocer una variedad de fuentes. Por ejemplo, la caligrafía china utiliza la extracción de características para realizar el reconocimiento de caracteres.

La mayoría de las aplicaciones de OCR incorporan comprobación inteligente de sintaxis, lo que mejora aún más las tasas de reconocimiento. Implementa principalmente la corrección ortográfica y gramatical a través de la verificación de contexto. En el reconocimiento de texto, la aplicación OCR realizará algunas verificaciones de conexión de contexto en función de las frases y palabras en un orden fijo que ya existe en el programa, la cadena de palabras y palabras. comprobado correspondientemente. Las aplicaciones más avanzadas reemplazarán automáticamente las palabras incorrectas con palabras que "cree" que son correctas, corrigiendo así el significado de la afirmación.

2. Pasos del reconocimiento de texto

El reconocimiento de texto incluye los siguientes pasos: entrada de gráficos, preprocesamiento, reconocimiento de palabras y posprocesamiento.

(1) Entrada de imágenes y texto

Consiste en ingresar documentos en la computadora a través del dispositivo de entrada, es decir, realizar la digitalización del documento original. El dispositivo más utilizado hoy en día es el escáner. La calidad del escaneo de las imágenes de los documentos es un requisito previo para el correcto reconocimiento por parte del software OCR. La selección adecuada de la resolución de escaneo y los parámetros relacionados es un requisito previo para garantizar que el texto sea claro y no se pierdan características clave. Además, el documento debe colocarse lo más recto posible para garantizar que el ángulo de inclinación detectado durante el preprocesamiento sea pequeño y que la deformación de la imagen del texto sea pequeña después de la corrección de la inclinación. Estas simples operaciones mejorarán la precisión del reconocimiento del sistema. Por el contrario, los saltos de texto excesivos pueden dejar la mitad de la imagen del texto sin detectar debido a una configuración de escaneo incorrecta. Los bolígrafos rotos y la adherencia de los trazos harán que se pierdan algunas características. Al comparar sus características con la biblioteca de características, la distancia de las características aumentará y la tasa de error de reconocimiento también aumentará.

(2) Preprocesamiento

Escanee imágenes simples de documentos impresos, clasifique cada imagen de texto y entréguela al módulo de reconocimiento para su reconocimiento. Este proceso se denomina preprocesamiento de imágenes. El preprocesamiento se refiere a algunos trabajos de preparación antes del reconocimiento de texto, incluido el procesamiento de purificación de imágenes, eliminación de ruido visible (interferencia) en la imagen original, etc. Las tareas principales son medir el ángulo de inclinación de la ubicación del documento, analizar el diseño del documento, confirmar la composición tipográfica del campo de texto seleccionado, cortar las líneas de texto en el diseño horizontal y vertical, separar las imágenes de texto de cada línea e identificar la puntuación. marcas, etc. El trabajo en esta etapa es muy importante y el efecto del procesamiento afecta directamente la precisión del reconocimiento del texto.

El análisis de diseño es un análisis general de las imágenes de texto. Es un examen de subelementos de todos los bloques de texto del documento, distinguiendo los párrafos y el orden de diseño del texto, así como las imágenes, tablas y regiones. . El límite de dominio de cada bloque de texto (las coordenadas del punto inicial y final del dominio en la imagen), los atributos del dominio (diseño horizontal y vertical) y la relación de conexión de cada bloque de texto se utilizan como estructuras de datos y se proporcionan al módulo de reconocimiento para reconocimiento automático.

El área de texto se reconoce y procesa directamente, el área de la tabla se somete a un análisis de forma especial y un procesamiento de reconocimiento, y el área de la imagen se comprime o simplemente se almacena. El corte de caracteres de línea es el proceso de cortar una imagen grande en líneas y luego aislar caracteres individuales de las líneas de la imagen.

(3) Reconocimiento de un solo carácter

El reconocimiento de un solo carácter es la tecnología central del reconocimiento de texto OCR. Las imágenes de texto detectadas a partir del texto escaneado son convertidas en códigos de texto estándar por la computadora. Esta es la clave para permitir que la computadora "reconozca caracteres", también conocida como tecnología de reconocimiento. Al igual que el cerebro humano reconoce el texto, porque el cerebro humano siempre ha conservado varias características del texto, como la estructura del texto, los trazos del texto, etc. Para que la computadora reconozca el texto, también es necesario almacenar en la computadora diversa información característica del texto. Sin embargo, qué tipo de información se debe almacenar y cómo obtenerla es un proceso muy complicado y una alta tasa de reconocimiento. debe lograrse para cumplir con los requisitos. El enfoque comúnmente utilizado es analizar en función de los trazos del texto, los puntos característicos, la información de proyección y la distribución regional de los puntos.

Hay miles de caracteres chinos de uso común. La tecnología de reconocimiento es una tecnología de comparación de características. Al comparar con la biblioteca de características de reconocimiento, se encuentra el personaje con las características más similares y se extrae el código estándar del personaje. La comparación es el método básico para que las personas comprendan las cosas. El reconocimiento de caracteres chinos también utiliza la comparación para descubrir las similitudes, diferencias y similitudes de los caracteres chinos, y para comprender la relación entre cantidad y calidad de los caracteres chinos, así como la relación entre ellos. tiempo y espacio. Para los caracteres chinos con conjuntos de caracteres grandes, generalmente se utilizan clasificación de múltiples niveles, características múltiples y coincidencia dinámica completa de conjuntos similares para garantizar una alta tasa de clasificación, una gran adaptabilidad y una buena estabilidad, que se centra en hacer coincidir similitudes y diferencias; de conjuntos similares, procesamiento de ponderación, discriminación estructural, análisis cuantitativo y cualitativo y la relación entre palabras relacionadas, y finalmente discriminación. El reconocimiento de caracteres chinos es esencialmente la aplicación de la ciencia comparada o la ciencia cognitiva en la inteligencia artificial, y su tecnología clave es la biblioteca de funciones de reconocimiento. Sólo con dicha biblioteca de funciones la computadora puede completar la función de reconocimiento de caracteres chinos.

En la composición tipográfica de documentos de imagen, además de texto e imágenes, a veces también hay formas. Para digitalizar el reconocimiento de formas, es necesario analizar y procesar especialmente el dominio de la forma en el proceso de composición tipográfica. , que incluye extraer la información estructural de las líneas del cuerpo, clasificar el cuerpo y los campos de texto, completar la identificación de las líneas del cuerpo y los campos de texto y generar diferentes formatos de documentos basados ​​​​en las líneas del cuerpo digitalizadas. Debido a la aleatoriedad de las formas en los documentos, existen diversos formatos, tanto cerrados como abiertos, especialmente las líneas diagonales en el formulario, lo que trae ciertas dificultades al análisis formal.

(4) Postprocesamiento

El posprocesamiento se refiere al uso de frases para hacer coincidir el texto reconocido o múltiples resultados de reconocimiento hacia arriba y hacia abajo, es decir, segmentar los resultados de una sola palabra. reconocimiento en palabras y relacionarlas con el vocabulario. Compare las frases en el sistema para mejorar la tasa de reconocimiento del sistema y reducir la tasa de reconocimiento erróneo.

El reconocimiento de caracteres chinos es el problema más difícil en el campo del reconocimiento de texto, e involucra disciplinas como el reconocimiento de patrones, el procesamiento de imágenes, el procesamiento de señales digitales, la comprensión del lenguaje natural, la inteligencia artificial, las matemáticas difusas, la teoría de la información y las computadoras. , Procesamiento de información china, etc. Es una tecnología integral. En los últimos años, la tasa de precisión del reconocimiento de un solo carácter de los sistemas de reconocimiento de caracteres chinos impresos ha superado el 95%. Para mejorar aún más la tasa de reconocimiento general del sistema, se han realizado investigaciones en profundidad sobre imágenes escaneadas, preprocesamiento de imágenes, posprocesamiento de reconocimiento y otras tecnologías, y se han logrado grandes avances, mejorando efectivamente el rendimiento general de el sistema de reconocimiento de caracteres chinos impresos. Los excelentes resultados de investigación de la Universidad de Tsinghua en este campo la han convertido en una de las instituciones más autorizadas del mundo. Actualmente, todos los escáneres de Tsinghua Unisoc están equipados con el software Tsinghua OCR Millennium Edition, que ha alcanzado un nivel muy alto en términos de tasa de reconocimiento, reconocimiento de formas e incluso reconocimiento de escritura a mano estándar.

3. Habilidades de reconocimiento de texto OCR

En los últimos años, la tecnología de reconocimiento OCR se ha desarrollado rápidamente con la popularidad de los escáneres, y el rendimiento del software de reconocimiento ha seguido volviéndose más fuerte e inteligente. . Pero para obtener rápidamente resultados de escaneo correctos y obtener una entrada de texto eficiente, debemos estudiar cuidadosamente los conocimientos relevantes y combinarlos con experiencia práctica para encontrar nuestro propio conjunto completo de soluciones.

A veces, la tasa de reconocimiento de texto en el trabajo es muy baja y no puede superar 95 como se indica en el software. No culpe al hardware o al software. De hecho, esto se debe a que no dominamos las habilidades de escaneo y reconocimiento OCR.

En el funcionamiento del reconocimiento de texto, se suelen utilizar los siguientes métodos y técnicas.

1. La configuración de la resolución es un requisito previo importante para el reconocimiento de texto. En términos generales, cuanta más información de imagen proporcione el escáner, más fáciles serán los resultados del reconocimiento del software de reconocimiento. Pero eso no significa que cuanto mayor sea la resolución de escaneo, mayor será la precisión del reconocimiento. Elija una resolución de 300 ppp o 400 ppp, adecuada para la mayoría de escaneos de documentos. Cabe señalar que al escanear y reconocer el texto original, la resolución de escaneo establecida no debe exceder la resolución óptica del escáner; de lo contrario, la ganancia superará la pérdida. A continuación se muestran algunas configuraciones típicas solo como referencia.

(1) Se recomienda 200 ppp para fragmentos de artículos de 1, 2 o 3 caracteres.

(2) Se recomienda utilizar 300 ppp para procesar fragmentos de artículos de 4 caracteres, 4 caracteres o 5 caracteres.

(3) Se recomienda utilizar 400 ppp para procesar 5 caracteres. o fragmentos de artículos de 6 caracteres

(4) Se recomienda utilizar 600 ppp para procesar fragmentos de artículos de 7 u 8 caracteres

(5) Se recomienda utilizar 600 ppp para procesar fragmentos de artículos de 7 u 8 caracteres Fragmentos de artículos

(6) Se recomienda utilizar 600 ppp para procesar fragmentos de artículos de 7 u 8 caracteres

. p>

2. Al escanear, ajuste los valores de brillo y contraste de forma adecuada para que los documentos escaneados queden claros en blanco y negro. Este es el aspecto más crítico que afecta la tasa de reconocimiento. Los valores de brillo y contraste del escaneo se establecen según el principio de observar que los trazos de los caracteres chinos en la imagen escaneada sean finos pero no abiertos. Antes del reconocimiento, primero verifique la calidad del texto en la imagen escaneada. Si hay puntos negros o puntos negros en la imagen o las líneas del texto son muy gruesas y negras y los trazos no se pueden distinguir, significa que el valor de brillo es demasiado pequeño. Debe aumentar el valor de brillo y volver a intentarlo; si el texto Las líneas son desiguales, hay roturas e incluso el contorno de los caracteres chinos en la imagen está muy incompleto, lo que indica que el valor de brillo es demasiado alto. brillo y vuelva a intentarlo.

3. Elija un buen software de escaneo. Elegir un buen software de OCR que se adapte a sus necesidades es la base para un buen reconocimiento de texto. Generalmente, no utilice el software OEM que viene con el escáner. El software OEM OCR tiene menos funciones y efectos deficientes. En comparación, el autor cree que las capacidades de reconocimiento y las funciones de uso de Tsinghua Unisoc OCR2003 Professional Edition y el sistema de entrada de reconocimiento automático de texto Tianshu OCR6.0 son excepcionales. Alguno. Entonces, al elegir un software de imágenes, ¿no es el software OCR solo una interfaz de escaneo? ¿Por qué seguir buscando software de imágenes? En primer lugar, el software OCR no puede reconocer todos los escáneres; en segundo lugar, y lo más importante, las imágenes escaneadas utilizando la interfaz de escaneo del software de imágenes generalmente son fáciles de procesar;

4. Si desea formatear el texto, como negrita, cursiva, sangría de la primera línea, etc., algunos programas de OCR no lo reconocerán y se perderán en forma de formato o serán confusos. personajes. Si debe escanear texto formateado, asegúrese de antemano de que el software de reconocimiento que utilice admita el formato del texto escaneado. También puede desactivar el sistema de reconocimiento de estilo para que el software se centre en encontrar los caracteres correctos y ya no considere las fuentes ni el formato de las fuentes.

Red de información OCR de China

Además, el grupo de webmasters compra productos a bajo precio y con garantía.