Red de conocimiento informático - Aprendizaje de código fuente - Según su código, la cadena leída por uno de los PDF está vacía, pero los otros PDF están bien, gracias.

Según su código, la cadena leída por uno de los PDF está vacía, pero los otros PDF están bien, gracias.

Utilice PDFBox para procesar documentos PDF

El nombre completo de PDF es Portable Document Format, que es un formato de archivo electrónico desarrollado por Adobe. Este formato de archivo no tiene nada que ver con la plataforma del sistema operativo y se puede utilizar universalmente en sistemas operativos como Windows, Unix o Mac OS.

El formato de archivo PDF encapsula texto, fuentes, formatos, colores y gráficos e imágenes que son independientes del dispositivo y la resolución en un solo archivo. Si desea extraer la información del texto, debe analizarla según su formato de archivo. Afortunadamente, ya existen muchas herramientas que pueden ayudarnos a hacer estas cosas.

2. Descarga de PDFBox

La herramienta de extracción de texto PDF más común es PDFBox. Visite la URL /projects/pdfbox/ e ingrese la descarga como se muestra en la interfaz de la Figura 7-1. Los lectores pueden descargar la última versión desde esta página. Este libro utiliza la versión PDFBox-0.7.3. PDFBox es una biblioteca PDF de Java de código abierto que le permite acceder a diversa información de archivos PDF. En el siguiente ejemplo, demostraremos cómo utilizar la API proporcionada por PDFBox para extraer información de texto de un archivo PDF.

3. Configuración en Eclipse

El siguiente es el proceso de creación de un proyecto en Eclipse y establecimiento de una clase de herramienta para analizar archivos PDF.

(1) Cree un proyecto Java normal en el espacio de trabajo de Eclipse: capítulo 7.

(2) Descomprima el PDFBox-0.7.3.zip descargado.

(3) Ingrese al directorio externo, puede ver que esto incluye todos los paquetes externos utilizados por PDFBox. Copie el siguiente paquete Jar en el directorio lib del proyecto ch7 (si el directorio lib aún no se ha creado, cree uno primero).

l bcmail-jdk14-132.jar

l bcprov-jdk14-132.jar

l checkstyle-all-4.2.jar

l FontBox-0.1.0-dev.jar

l lucene-core-2.0.0.jar

Luego copie PDFBox-0.7 del directorio lib de PDFBox 3. jar al directorio lib del proyecto.

(4) Haga clic derecho en el proyecto, seleccione el comando "Build Path-gt; Config Build Path-gt; Add Jars" en el menú contextual emergente y agregue todos los paquetes del proyecto. directorio lib La ruta de compilación del proyecto.

4. Utilice PDFBox para analizar contenido PDF

En el proyecto Eclipse recién creado, cree un paquete ch7.pdfbox y cree una clase PdfboxTest. Esta clase contiene un método getText, que se utiliza para obtener información de texto de un PDF. El código es el siguiente.

importar java.io.BufferedWriter

importar java.io.FileInputStream

importar java.io.FileWriter

importar; org.pdfbox.pdfparser.PDFParser;

importar org.pdfbox.util.PDFTextStripper;

clase pública PdfParser {

/**

* @param args

*/

// TODO genera automáticamente códigos auxiliares de métodos

public static void main(String[] args) throws Exception{

FileInputStream fis = new FileInputStream("F:\\task\\lerman-atem2001.pdf");

BufferedWriter escritor = new BufferedWriter(new FileWriter("F:\\task \\pdf_change.txt"));

PDFParser p = nuevo PDFParser(fis);

p.parse();

PDFTextStripper ts = nuevo PDFTextStripper ();

String s = ts.getText(p.getPDDocument());

escritor.write(s

System.out.println); (s);

fis.close();

escritor.close()

}

}