使用 iText 将 HTML 转换为 PDF源文件:我遇到的问题:剩下的问题:附加问题:为什么你的代码不起作用如何解决问题一些额外的想法。

2022-09-02 09:58:00

我发布这个问题是因为许多开发人员以不同的形式或多或少地提出相同的问题。我会自己回答这个问题(我是iText Group的创始人/首席技术官),这样它就可以成为一个“Wiki-answer”。如果 Stack Overflow “文档”功能仍然存在,这将是文档主题的良好候选者。

源文件:

我正在尝试将以下HTML文件转换为PDF:

<html>
    <head>
        <title>Colossal (movie)</title>
        <style>
            .poster { width: 120px;float: right; }
            .director { font-style: italic; }
            .description { font-family: serif; }
            .imdb { font-size: 0.8em; }
            a { color: red; }
        </style>
    </head>
    <body>
        <img src="img/colossal.jpg" class="poster" />
        <h1>Colossal (2016)</h1>
        <div class="director">Directed by Nacho Vigalondo</div>
        <div class="description">Gloria is an out-of-work party girl
            forced to leave her life in New York City, and move back home.
            When reports surface that a giant creature is destroying Seoul,
            she gradually comes to the realization that she is somehow connected
            to this phenomenon.
        </div>
        <div class="imdb">Read more about this movie on
            <a href="www.imdb.com/title/tt4680182">IMDB</a>
        </div>
    </body>
</html>

在浏览器中,此 HTML 如下所示:

enter image description here

我遇到的问题:

HTMLWorker根本没有考虑CSS。

当我使用时,我需要创建一个以避免错误,通知我找不到图像。我还需要创建一个实例来更改一些样式:HTMLWorkerImageProviderStyleSheet

public static class MyImageFactory implements ImageProvider {
    public Image getImage(String src, Map<String, String> h,
            ChainedProperties cprops, DocListener doc) {
        try {
            return Image.getInstance(
                String.format("resources/html/img/%s",
                    src.substring(src.lastIndexOf("/") + 1)));
        } catch (DocumentException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
        return null;
    }    
}

public static void main(String[] args) throws IOException, DocumentException {
    Document document = new Document();
    PdfWriter.getInstance(document, new FileOutputStream("results/htmlworker.pdf"));
    document.open();
    StyleSheet styles = new StyleSheet();   
    styles.loadStyle("imdb", "size", "-3");
    HTMLWorker htmlWorker = new HTMLWorker(document, null, styles);
    HashMap<String,Object> providers = new HashMap<String, Object>();
    providers.put(HTMLWorker.IMG_PROVIDER, new MyImageFactory());
    htmlWorker.setProviders(providers);
    htmlWorker.parse(new FileReader("resources/html/sample.html"));
    document.close();   
}

结果如下所示:

enter image description here

出于某种原因,还会显示标记的内容。我不知道如何避免这种情况。标头中的CSS根本没有被解析,我必须使用对象在代码中定义所有样式。HTMLWorker<title>StyleSheet

当我查看我的代码时,我看到我正在使用的大量对象和方法都被弃用了:

enter image description here

因此,我决定升级到使用 XML Worker。


使用 XML 工作线程时找不到图像

我尝试了以下代码:

public static final String DEST = "results/xmlworker1.pdf";
public static final String HTML = "resources/html/sample.html";
public void createPdf(String file) throws IOException, DocumentException {
    Document document = new Document();
    PdfWriter writer = PdfWriter.getInstance(document, new FileOutputStream(file));
    document.open();
    XMLWorkerHelper.getInstance().parseXHtml(writer, document,
            new FileInputStream(HTML));
    document.close();
}

这导致了以下 PDF:

enter image description here

而不是Times-Roman,使用默认字体Helvetica;这是典型的iText(我应该在我的HTML中明确定义一种字体)。否则,CSS似乎受到尊重,但图像丢失,我没有收到错误消息。

有 ,则抛出异常,我能够通过引入 .让我们看看这是否适用于 XML Worker。HTMLWorkerImageProvider

并非所有 CSS 样式在 XML Worker 中都受支持

我像这样调整了我的代码:

public static final String DEST = "results/xmlworker2.pdf";
public static final String HTML = "resources/html/sample.html";
public static final String IMG_PATH = "resources/html/";
public void createPdf(String file) throws IOException, DocumentException {
    Document document = new Document();
    PdfWriter writer = PdfWriter.getInstance(document, new FileOutputStream(file));
    document.open();

    CSSResolver cssResolver =
            XMLWorkerHelper.getInstance().getDefaultCssResolver(true);
    HtmlPipelineContext htmlContext = new HtmlPipelineContext(null);
    htmlContext.setTagFactory(Tags.getHtmlTagProcessorFactory());
    htmlContext.setImageProvider(new AbstractImageProvider() {
        public String getImageRootPath() {
            return IMG_PATH;
        }
    });

    PdfWriterPipeline pdf = new PdfWriterPipeline(document, writer);
    HtmlPipeline html = new HtmlPipeline(htmlContext, pdf);
    CssResolverPipeline css = new CssResolverPipeline(cssResolver, html);

    XMLWorker worker = new XMLWorker(css, true);
    XMLParser p = new XMLParser(worker);
    p.parse(new FileInputStream(HTML));

    document.close();
}

我的代码要长得多,但现在图像被渲染了:

enter image description here

图像比我使用它时大,这告诉我类的CSS属性被考虑在内,但该属性被忽略。如何解决此问题?HTMLWorkerwidthposterfloat

剩下的问题:

所以问题归结为:我有一个特定的HTML文件,我试图将其转换为PDF。我经历了很多工作,修复了一个又一个问题,但有一个具体的问题我无法解决:我如何使iText尊重定义元素位置的CSS,例如?float: right

附加问题:

当我的 HTML 包含表单元素(如 )时,这些表单元素将被忽略。<input>


答案 1

为什么你的代码不起作用

正如 HTML to PDF 教程的介绍中所述,多年前已被弃用。它不打算转换完整的HTML页面。它不知道HTML页面有一个和一个部分;它只是解析所有内容。它旨在解析小的HTML片段,您可以使用该类定义样式;不支持真正的 CSS。HTMLWorker<head><body>StyleSheet

然后是XML Worker。XML Worker旨在作为解析XML的通用框架。作为概念证明,我们决定编写一些XHTML到PDF的功能,但我们不支持所有的HTML标签。例如:根本不支持表单,并且很难支持用于定位内容的CSS。HTML中的表单与PDF中的表单非常不同。iText架构和HTML + CSS架构之间也存在不匹配。渐渐地,我们扩展了 XML Worker,主要基于客户的请求,但 XML Worker 变成了一个有许多触角的怪物。

最终,我们决定从头开始重写iText,并考虑到HTML + CSS转换的要求。这导致了iText 7。在iText 7之上,我们创建了几个附加组件,其中最重要的一个是pdfHTML

如何解决问题

使用最新版本的 iText (iText 7.1.0 + pdfHTML 2.0.0),将 HTML 从问题转换为 PDF 的代码将简化为以下代码段:

public static final String SRC = "src/main/resources/html/sample.html";
public static final String DEST = "target/results/sample.pdf";
public void createPdf(String src, String dest) throws IOException {
    HtmlConverter.convertToPdf(new File(src), new File(dest));
}

结果如下所示:

enter image description here

如您所见,这几乎是您期望的结果。由于iText 7.1.0 / pdfHTML 2.0.0,默认字体是Times-Roman。CSS正在受到尊重:图像现在浮动在右侧。

一些额外的想法。

当我给出升级到iText 7 / pdfHTML 2的建议时,开发人员经常反对升级到更新的iText版本。请允许我回答我听到的前3个论点:

我需要使用免费的iText,而iText 7不是免费的/pdfHTML附加组件是闭源的。

iText 7是使用AGPL发布的,就像iText 5和XML Worker一样。AGPL允许在开源项目的背景下免费使用。如果您正在分发闭源/专有产品(例如,您在SaaS上下文中使用iText),则不能免费使用iText;在这种情况下,您必须购买商业许可证。对于iText 5来说,这已经是正确的了。对于iText 7来说,情况仍然如此。至于iText 5之前的版本:你根本不应该使用这些版本。关于pdfHTML:第一个版本确实只能作为闭源软件使用。我们在iText Group内部进行了激烈的讨论:一方面,有些人希望避免那些不听开发人员意见的公司的大量滥用,当这些开发人员告诉权力时,开源与免费不一样。开发人员告诉我们,他们的老板强迫他们做错事,他们无法说服老板购买商业许可证。另一方面,有些人认为我们不应该因为老板的错误行为而惩罚开发人员。最终,支持开源pdfHTML的人,即:iText的开发人员,赢得了争论。请证明他们没有错,并正确使用iText:如果您免费使用iText,请尊重AGPL;确保您的老板购买了商业许可证,如果您在闭源环境中使用iText。

我需要维护一个遗留系统,我必须使用旧的iText版本。

认真地?维护还涉及应用升级和迁移到您正在使用的软件的新版本。如您所见,使用iText 7和pdfHTML时所需的代码非常简单,并且比以前所需的代码更不容易出错。迁移项目不应花费太长时间。

我才刚刚开始,我不知道iText 7;我是在完成项目后才发现的。

这就是我发布这个问题和答案的原因。把自己想象成一个极限程序员。扔掉所有的代码,重新开始。你会注意到,它并不像你想象的那么多工作,而且你会睡得更好,因为你知道你的项目已经适应了未来,因为iText 5正在逐步淘汰。我们仍然为付费客户提供支持,但最终,我们将完全停止支持iText 5。


答案 2

使用 iText 7 和以下代码:

public void generatePDF(String htmlFile) {
    try {

        //HTML String
        String htmlString = htmlFile;
        //Setting destination 
        FileOutputStream fileOutputStream = new FileOutputStream(new File(dirPath + "/USER-16-PF-Report.pdf"));
        
        PdfWriter pdfWriter = new PdfWriter(fileOutputStream);
        ConverterProperties converterProperties = new ConverterProperties();
        PdfDocument pdfDocument = new PdfDocument(pdfWriter);

        //For setting the PAGE SIZE
        pdfDocument.setDefaultPageSize(new PageSize(PageSize.A3));
        
        Document document = HtmlConverter.convertToDocument(htmlFile, pdfDocument, converterProperties);
        document.close();
    } 
    catch (Exception e) {
         e.printStackTrace();
    }
}