Cómo utilizar pdfBox para extraer imágenes de archivos pdf
2. Después de ingresar a la página de Apache PDFBox, podemos ver que PDFBox puede realizar muchas operaciones. Aquí solo presentamos cómo extraer texto, que es el primer elemento "Extraer texto-Extraer Unicode de texto PDF". archivos". "
3. Luego hacemos clic en "Descargas" en el lado izquierdo de la navegación para ingresar a la página de descarga.
En este momento queremos descargar dos archivos Jar, uno es " pdfbox-app-1.8.10.jar", el otro es "fontbox-1.8.10.jar", puedes encontrar que hay otro "pdfbox-1.8.10.jar" y el otro es "pdfbox-1.8.10 . jar", ¿por qué no descargarlo? El Jar que contiene "app" en el nombre anterior tiene las funciones más completas, por lo que es mejor descargarlo.
4. Agregue los dos archivos Jar descargados al archivo. Pasos de la biblioteca del programa, haga clic derecho en el proyecto -> seleccione "Ruta de compilación" -> "Configurar ruta de compilación ...", aparecerá una ventana, seleccione "Ruta de compilación de Java" en la navegación izquierda y luego seleccione. "bibliotecas." ", haga clic en "Agregar archivos JAR externos", luego seleccione los dos archivos Jar que acaba de descargar y haga clic en "Aceptar".
5. El siguiente paso es escribir el programa. El código del programa es como se muestra en la figura Como se muestra, ingrese el archivo fuente "a.pdf" y luego genere todo el texto en el PDF fuente en el archivo de destino "aa.txt".
6. Código fuente del programa:
importar java.io.FileInputStream;importar java.io.FileOutputStream;importar java.io.OutputStreamWriter;importar org.PDFParser;importar org.apache .pdfbox.pdfparser.PDFParser;import org.apache.pdfbox.pdmodel.PDDocument;import org.apache.pdfbox.util.PDFTextStripper;publicPDFTextStripper;public class PdfExtracter { public PdfExtracter() { } public String GetTextFromPdf(String filename) lanza una excepción { Contenido de cadena = nulo; PDDocument pdfdocument = nulo; FileInputStream es = nuevo FileInputStream(nombre de archivo); PDFParser analizador = nuevo PDFTextStripper(); ; contenido = stripper.getText(pdfdocument); devolver contenido; } public static void main(String args[]) { PdfExtracter pf = new PdfExtracter(); intentar { String ts = pf.GetTextFromPdf("c:/a.pdf" ); //System.out.println(ts) OutputStreamWriter osw = new OutputStreamWriter( new FileOutputStream("c:/aa.txt")); ; } catch (Excepción e) { e.printStackTrace(); } }PdfExtracter pf = new PdfExtracter(); prueba { String ts = pf.}}