如何使用Java阅读PDF文件?[已关闭]

2022-08-31 12:37:09

我想使用Java从PDF文件中读取一些文本数据。我该怎么做?


答案 1

PDFBox是我为此目的找到的最好的库,它很全面,如果你只是做基本的文本提取,它真的很容易使用。可以在此处找到示例。

它在页面上进行了解释,但需要注意的一件事是,使用 setStartPage() 和 setEndPage() 时的开始和结束索引都是包含的。我第一次跳过了这个解释,然后我花了一段时间才意识到为什么我每次打电话都会得到不止一页!

Itext是另一种也适用于C#的替代方案,尽管我个人从未使用过它。它比PDFBox更低级,因此如果您只需要基本的文本提取,则不太适合这项工作。


答案 2

使用Apache PDFBox,它是这样的:

import java.io.File; 
import java.io.IOException; 
import org.apache.pdfbox.pdmodel.PDDocument; 
import org.apache.pdfbox.text.PDFTextStripper; 
import org.apache.pdfbox.text.PDFTextStripperByArea;

PDDocument document = PDDocument.load(new File("test.pdf"));
if (!document.isEncrypted()) {
    PDFTextStripper stripper = new PDFTextStripper();
    String text = stripper.getText(document);
    System.out.println("Text:" + text);
}
document.close();

推荐