如何从PDF文件中提取图像？[已关闭]

php pdf perl

2022-08-30 19:52:49

我需要从服务器上的PDF文件中提取所有图像。我不想要PDF页面，只想要原始大小和分辨率的图像。

我怎么能用Perl，PHP或任何其他基于UNIX的应用程序（我会用PHP的exec函数调用）来做到这一点？

答案 1

pdfimages就是这样做的。它是 poppler-utils 和 xpdf-utils 软件包的一部分。

从手册页：

Pdfimages 将可移植文档格式（PDF）文件中的图像存储为可移植像素图（PPM）、可移植位图（PBM）或 JPEG 文件。

Pdfimages 读取 PDF 文件，扫描一个或多个页面、PDF 文件，并为每个图像写入一个 PPM、PBM 或 JPEG 文件，image-root-nnn.xxx，其中 nnn 是图像编号，xxx 是图像类型（.ppm、.pbm、.jpg）。

注意：pdfimages从PDF文件中提取原始图像数据，而无需执行任何其他转换。由 PDF 内容流完成的任何旋转、剪切、颜色反转等都将被忽略。

答案 2

关于Perl，你检查过CPAN吗？

PDF：：GetImages - 从pdf文档中获取图像
PDF：：OCR - 从 PDF 文件中获取 OCR 和图像
PDF：：OCR2 - 从pdf中提取所有文本和所有图像OCR