提取 PDF 目录?
我正在SWFTools和XPDF的帮助下将pdf提取到图像/ swf和文本中。我正在PDF脚本中运行这些。
但是现在我试图更进一步,尝试从PDF中获取目录,是否可以提取此信息?
我正在SWFTools和XPDF的帮助下将pdf提取到图像/ swf和文本中。我正在PDF脚本中运行这些。
但是现在我试图更进一步,尝试从PDF中获取目录,是否可以提取此信息?
我通过一点点搜索找到了这个。它看起来相当有希望。
PDF矿工: http://www.unixuser.org/~euske/python/pdfminer/index.html
注意:该工具基于 Python,但您应该能够通过 shell 访问来使用该工具。或者,您可以从源代码本身收集一些有用的信息,因为该项目是开源的。
从网站:
dumppdf.py
dumppdf.py 以伪 XML 格式转储 PDF 文件的内部内容。此程序主要用于调试目的,但也可以提取一些有意义的内容(例如图像)。
例子:
$ dumppdf.py -a foo.pdf (dump all the headers and contents, except stream objects) $ dumppdf.py -T foo.pdf (dump the table of contents) $ dumppdf.py -r -i6 foo.pdf > pic.jpeg (extract a JPEG image)
我试过,但它在某些PDF文件上不起作用。dump.pdf -T
MuPDF中还有另一个名为的工具,我刚刚发现。我不知道这是否比转储更好.pdf但是在PDF文件转储上工作.pdf抛出错误。mutool
以下是用粘液提取TOC的方法
mutool show {your-pdf-file} outline