El papel es cada vez menos popular en muchos lugares, hace más de 40 años que se habla de oficinas sin papel y el entorno de oficina está limitando la creación de montañas de papel. En los últimos años, el concepto de oficina sin papel ha experimentado una importante transformación. Los documentos que contienen grandes cantidades de información y datos administrativos importantes se pueden almacenar electrónicamente más fácilmente con la ayuda de programas informáticos. Los beneficios de escanear documentos van más allá del mero archivado. La tecnología de reconocimiento óptico de caracteres (OCR) es fundamental para capturar información en papel e integrarla en flujos de trabajo digitales. La elección de la herramienta de OCR adecuada depende de necesidades específicas; por ejemplo, los servicios de OCR en línea pueden resultar útiles para algunas personas, pero pueden tener problemas de privacidad y limitaciones en el tamaño de los archivos. El software OCR no es un producto para el mercado masivo, por lo que, aparte de los pesos pesados de calidad comercial, existen relativamente pocas alternativas de código abierto y el software OCR requiere algoritmos avanzados para convertir correctamente las imágenes escaneadas en texto real, y las imágenes no solo contienen texto. también contiene diseños, gráficos y tablas que pueden abarcar varias páginas.
El excelente software OCR de código abierto incluye:
Tesseract
Tesseract-ocr es una biblioteca de reconocimiento de imágenes desarrollada originalmente por HP. Se ha actualizado a la versión 2.04. Este es el mismo OCR que Google admitió recientemente.
OCRopus
Ocropus (TM) es un sistema avanzado de análisis de documentos y OCR que utiliza análisis de diseño conectable, reconocimiento de caracteres conectable y modelado estadístico en lenguaje natural y soporte en varios idiomas.
Cuneiform
Cuneiform es una marca comercial del sistema de reconocimiento de texto OCR desarrollado originalmente por Cognitive Technologies como software que se ejecuta en Windows. Este proyecto es portar este software a Linux.
GOCR
GOCR es un programa de reconocimiento óptico OCR de código abierto.
OCRFeder
OCRFeeder es una suite de OCR de código abierto para el escritorio GNOME. Puede convertir documentos en papel o gráficos en documentos electrónicos.
Lios
linux-intelligent-ocr-solution (Lios) es una solución OCR de código abierto para Linux que convierte documentos impresos en texto editable.