如何从PDF文件中提取图像?[已关闭]
我需要从服务器上的PDF文件中提取所有图像。我不想要PDF页面,只想要原始大小和分辨率的图像。
我怎么能用Perl,PHP或任何其他基于UNIX的应用程序(我会用PHP的exec函数调用)来做到这一点?
我需要从服务器上的PDF文件中提取所有图像。我不想要PDF页面,只想要原始大小和分辨率的图像。
我怎么能用Perl,PHP或任何其他基于UNIX的应用程序(我会用PHP的exec函数调用)来做到这一点?
pdfimages就是这样做的。它是 poppler-utils 和 xpdf-utils 软件包的一部分。
从手册页:
Pdfimages 将可移植文档格式 (PDF) 文件中的图像存储为可移植像素图 (PPM)、可移植位图 (PBM) 或 JPEG 文件。
Pdfimages 读取 PDF 文件,扫描一个或多个页面、PDF 文件,并为每个图像写入一个 PPM、PBM 或 JPEG 文件,image-root-nnn.xxx,其中 nnn 是图像编号,xxx 是图像类型(.ppm、.pbm、.jpg)。
注意:pdfimages从PDF文件中提取原始图像数据,而无需执行任何其他转换。由 PDF 内容流完成的任何旋转、剪切、颜色反转等都将被忽略。
关于Perl,你检查过CPAN吗?