Red de conocimiento informático - Aprendizaje de programación - Cómo PDFBOX extrae el contenido del PDF (título, autor, etc...)

Cómo PDFBOX extrae el contenido del PDF (título, autor, etc...)

¿Quién puede entender este código?

PDDocument pDoc=new PDDocument(cosDoc);

prueba{

PDDocumentInformation docInfo = pDoc.getDocumentInformation();

if ( docInfo ! = null){

Autor de cadena = docInfo.getAuthor();

System.out.out.println("Resumen " resumen);

System.out.println("Palabras clave " palabras clave);

if(!author.isEmpty()){

doc.add(new Field("autor", autor, Campo .Store.NO, Field.Index.ANALYZED));

}

if(! title.isEmpty()){

doc.add(new Field("título", título, Field.Store.NO, Field.Index.ANALYZED));

}

if(! resumen.isEmpty()) {

doc.add(new Field("summary", resumen, Field.Store.NO, Field.Index.ANALYZED));

}

if(!keywords .isEmpty()){

doc .add(new Field("palabras clave", palabras clave, Field.Store.NO, Field.Index.ANALYZED));

}

}

}

}catch(Excepción e){

closeCOSDocument(cosDoc);

closePDDocument(pDoc); );

System.err.println("no se pueden obtener metadatos en PDF" e.getMessage());

}

}

devolver documento;

}

COSDocument estático privado parseDocument(FileInputStream es) lanza IOException{

PDFParser parser=new PDFParser(es); p>

parser.parse();

return parser.getDocument();

}

cierre de vacío estático privadoCOSDocument(COSDocument cosDoc) {

if(cosDoc ! = null){

prueba{

cosDoc.close();

}catch(IOException e ){

//

}

}

}

}

}

cierre de vacío estático privadoPDDocument(PDDocument pdDoc){

if(pdDoc != null){

intenta{

pdDoc.close();

}catch(IOException e){

//

}

}

}

}

}

}

}

}