提取 PDF 目录？

php pdf xpdf

2022-08-30 15:19:40

我正在SWFTools和XPDF的帮助下将pdf提取到图像/ swf和文本中。我正在PDF脚本中运行这些。

但是现在我试图更进一步，尝试从PDF中获取目录，是否可以提取此信息？

答案 1

我通过一点点搜索找到了这个。它看起来相当有希望。

PDF矿工： http://www.unixuser.org/~euske/python/pdfminer/index.html

注意：该工具基于 Python，但您应该能够通过 shell 访问来使用该工具。或者，您可以从源代码本身收集一些有用的信息，因为该项目是开源的。

从网站：

dumppdf.py

dumppdf.py 以伪 XML 格式转储 PDF 文件的内部内容。此程序主要用于调试目的，但也可以提取一些有意义的内容（例如图像）。

例子：
$ dumppdf.py -a foo.pdf
(dump all the headers and contents, except stream objects)

$ dumppdf.py -T foo.pdf
(dump the table of contents)

$ dumppdf.py -r -i6 foo.pdf > pic.jpeg
(extract a JPEG image)

答案 2

我试过，但它在某些PDF文件上不起作用。dump.pdf -T

MuPDF中还有另一个名为的工具，我刚刚发现。我不知道这是否比转储更好.pdf但是在PDF文件转储上工作.pdf抛出错误。mutool

以下是用粘液提取TOC的方法

mutool show {your-pdf-file} outline

MuPDF