如何从PDF文档中提取文本？[已关闭]

php text unicode pdf

2022-08-30 08:58:41

如何使用PHP从PDF文档中提取文本？

（我不能使用其他工具，我没有root访问权限）

我发现一些函数适用于纯文本，但它们不能很好地处理Unicode字符：

http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html

答案 1

下载class.pdf2text.php @ https://pastebin.com/dvwySU1a 或 http://www.phpclasses.org/browse/file/31030.html（需要注册）

法典：

include('class.pdf2text.php');
$a = new PDF2Text();
$a->setFilename('filename.pdf'); 
$a->decodePDF();
echo $a->output();

class.pdf2text.php 项目首页
pdf2textclass不适用于我测试过的所有PDF，如果它不适合您，请尝试PDF解析器

答案 2

推荐

php java encryption
相当于Java中PHP的crypt函数我正在将我的PHP代码迁移到Google App Engine - Java。因此，我需要一个相当于Java中PHP的crypt函数，因为我已将使用crypt的注册用户的所有密码存储在我的数据库中。编辑1：这是我用于加密密码的php�
php java c# .net
需要有关如何从接受语言请求标头获取首选语言的示例我需要一个代码示例或库来解析标头并返回我的首选语言。指出： “接受语言请求标头”字段类似于“接受”，但限制首选作为请求响应的自然语言集。语言标记在第 3.10 节中定义。 �
php java encryption aes
无法在 Java 和 PHP 之间交换使用 AES-256 加密的数据我的问题是：我在Java中加密的东西，我可以在Java中完全解密，但PHP不能解密。我用加密的内容可以使用解密，但不能在 Java 中解密。我想从Java应用程序发送和接收加密数据到PHP页面，所以我�
php javascript android java
直播主题对于那些有兴趣从您的设备到Web服务器的直播的人来说，这可能是一个非常有趣的话题。（主要安卓/Java）我终于找到了一种方法，如何将视频从设备的摄像头直播到我的网络服务器（网站）。�
php java quercus
Quercus是Java环境中PHP的可行替代品吗？对于任何偶然发现这个问题的人，他们不知道是什么 - 它是用Java完成的PHP的实现。对于我目前正在从事的项目，我们通过cgi在servlet上提供php页面（我知道它很笨拙，但这是支持遗留代码的要求