PDFBox knihovna - bug pri indexaci pdf - potreba novejsi verze knihovny #431

mduda100871 · 2016-06-29T12:27:24Z

Zdravim,

narazili jsme pri indexovani clankovych pdf na nasledujici chybu:
....
VI 29, 2016 1:43:11 ODP. cz.incad.kramerius.indexer.ExtendedFields setPDFDocument
WARNING: Cannot parse PDF document
java.io.IOException: Object must be defined and must not be compressed object: 9:0
at org.apache.pdfbox.pdfparser.NonSequentialPDFParser.parseObjectDynamically(NonSequentialPDFParser.java:1167)
at org.apache.pdfbox.pdfparser.NonSequentialPDFParser.parseObjectDynamically(NonSequentialPDFParser.java:1130)
at org.apache.pdfbox.pdfparser.NonSequentialPDFParser.getLength(NonSequentialPDFParser.java:1388)
at org.apache.pdfbox.pdfparser.NonSequentialPDFParser.parseCOSStream(NonSequentialPDFParser.java:1489)
at org.apache.pdfbox.pdfparser.NonSequentialPDFParser.parseObjectDynamically(NonSequentialPDFParser.java:1204)
at org.apache.pdfbox.pdfparser.NonSequentialPDFParser.parseObjectDynamically(NonSequentialPDFParser.java:1130)
at org.apache.pdfbox.pdfparser.NonSequentialPDFParser.parseDictObjects(NonSequentialPDFParser.java:1104)
at org.apache.pdfbox.pdfparser.NonSequentialPDFParser.initialParse(NonSequentialPDFParser.java:439)
at org.apache.pdfbox.pdfparser.NonSequentialPDFParser.parse(NonSequentialPDFParser.java:700)
at org.apache.pdfbox.pdmodel.PDDocument.loadNonSeq(PDDocument.java:1278)
at org.apache.pdfbox.pdmodel.PDDocument.loadNonSeq(PDDocument.java:1261)
at cz.incad.kramerius.indexer.ExtendedFields.setPDFDocument(ExtendedFields.java:110)
at cz.incad.kramerius.indexer.SolrOperations.indexByPid(SolrOperations.java:446)
at cz.incad.kramerius.indexer.SolrOperations.indexByPid(SolrOperations.java:462)
at cz.incad.kramerius.indexer.SolrOperations.indexByPid(SolrOperations.java:462)
at cz.incad.kramerius.indexer.SolrOperations.indexByPid(SolrOperations.java:462)
at cz.incad.kramerius.indexer.SolrOperations.fromKrameriusModel(SolrOperations.java:356)
at cz.incad.kramerius.indexer.SolrOperations.updateIndex(SolrOperations.java:111)
at cz.incad.kramerius.indexer.FedoraOperations.updateIndex(FedoraOperations.java:50)
at cz.incad.kramerius.indexer.Indexer.updateIndex(Indexer.java:117)
at cz.incad.kramerius.indexer.Indexer.doUpdate(Indexer.java:111)
at cz.incad.kramerius.indexer.Indexer.update(Indexer.java:102)
at cz.incad.kramerius.indexer.Indexer.run(Indexer.java:75)
at cz.incad.kramerius.indexer.Main.main(Main.java:47)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
...

Trochu jsem pohledal a nasel, ze uz bug resili:

https://issues.apache.org/jira/browse/PDFBOX-2528

Stahl jsem tedy novejsi verzi knihovny (konkretne 1.8.12), vymenil v Krameriovi za puvodni knihovnu (1.8.2), spustil indexaci znovu a tentokrat probehlo vse bez problemu.

Bylo by tedy potreba do dalsi verze Krameria zaradit (a predem asi otestovat) uz novejsi verzi pdfbox knihovny.

Diky, Duda

filak · 2016-06-29T13:58:33Z

Ja bych se tedy durazne primluvil za verzi 2.0.2 viz issue #414

pavel-stastny pushed a commit that referenced this issue Aug 11, 2016

Issue #431 & #414 - new PDFBox library

6c6df58

pavel-stastny pushed a commit that referenced this issue Aug 11, 2016

Issue #431 & #414 - new PDFBox library

5cb39dd

pavel-stastny closed this as completed Aug 12, 2016

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

PDFBox knihovna - bug pri indexaci pdf - potreba novejsi verze knihovny #431

PDFBox knihovna - bug pri indexaci pdf - potreba novejsi verze knihovny #431

mduda100871 commented Jun 29, 2016 •

edited

Loading

filak commented Jun 29, 2016

PDFBox knihovna - bug pri indexaci pdf - potreba novejsi verze knihovny #431

PDFBox knihovna - bug pri indexaci pdf - potreba novejsi verze knihovny #431

Comments

mduda100871 commented Jun 29, 2016 • edited Loading

filak commented Jun 29, 2016

mduda100871 commented Jun 29, 2016 •

edited

Loading