如何从PDF文档中提取文本?[已关闭]

2022-08-30 08:58:41

如何使用PHP从PDF文档中提取文本?

(我不能使用其他工具,我没有root访问权限)

我发现一些函数适用于纯文本,但它们不能很好地处理Unicode字符:

http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html


答案 1

下载class.pdf2text.php @ https://pastebin.com/dvwySU1ahttp://www.phpclasses.org/browse/file/31030.html(需要注册)

法典:

include('class.pdf2text.php');
$a = new PDF2Text();
$a->setFilename('filename.pdf'); 
$a->decodePDF();
echo $a->output(); 

  • class.pdf2text.php 项目首页

  • pdf2textclass不适用于我测试过的所有PDF,如果它不适合您,请尝试PDF解析器



答案 2

推荐