如何使用Apache PDFBox从PDF文件中提取文本
我想使用Apache PDFBox从给定的PDF文件中提取文本。
我写了这个代码:
PDFTextStripper pdfStripper = null;
PDDocument pdDoc = null;
COSDocument cosDoc = null;
File file = new File(filepath);
PDFParser parser = new PDFParser(new FileInputStream(file));
parser.parse();
cosDoc = parser.getDocument();
pdfStripper = new PDFTextStripper();
pdDoc = new PDDocument(cosDoc);
pdfStripper.setStartPage(1);
pdfStripper.setEndPage(5);
String parsedText = pdfStripper.getText(pdDoc);
System.out.println(parsedText);
但是,我收到以下错误:
Exception in thread "main" java.lang.NullPointerException
at org.apache.fontbox.afm.AFMParser.main(AFMParser.java:304)
我在类路径中添加了pdfbox-1.8.5.jar和fontbox-1.8.5.jar。
编辑
我添加到程序的开头。System.out.println("program starts");
我运行了它,然后我得到了与上面提到的相同的错误,并且没有出现在控制台中。program starts
因此,我认为我对类路径或其他问题有问题。
谢谢。