Cómo PDFBOX extrae el contenido del PDF (título, autor, etc...)
PDDocument pDoc=new PDDocument(cosDoc);
prueba{
PDDocumentInformation docInfo = pDoc.getDocumentInformation();
if ( docInfo ! = null){
Autor de cadena = docInfo.getAuthor();
System.out.out.println("Resumen " resumen);
System.out.println("Palabras clave " palabras clave);
if(!author.isEmpty()){
doc.add(new Field("autor", autor, Campo .Store.NO, Field.Index.ANALYZED));
}
if(! title.isEmpty()){
doc.add(new Field("título", título, Field.Store.NO, Field.Index.ANALYZED));
}
if(! resumen.isEmpty()) {
doc.add(new Field("summary", resumen, Field.Store.NO, Field.Index.ANALYZED));
}
if(!keywords .isEmpty()){
doc .add(new Field("palabras clave", palabras clave, Field.Store.NO, Field.Index.ANALYZED));
} p>
}
}
}catch(Excepción e){
closeCOSDocument(cosDoc);
closePDDocument(pDoc); );
System.err.println("no se pueden obtener metadatos en PDF" e.getMessage());
}
}
devolver documento;
}
COSDocument estático privado parseDocument(FileInputStream es) lanza IOException{
PDFParser parser=new PDFParser(es); p> p>
parser.parse();
return parser.getDocument();
}
cierre de vacío estático privadoCOSDocument(COSDocument cosDoc) {
if(cosDoc ! = null){
prueba{
cosDoc.close();
}catch(IOException e ){
//
}
}
}
}
}
cierre de vacío estático privadoPDDocument(PDDocument pdDoc){
if(pdDoc != null){
intenta{
pdDoc.close();
}catch(IOException e){
//
}
}
}
}
}
}
}
}