在Java中以编程方式将Word文档转换为HTML

2022-09-01 21:15:50

我需要将Word文档转换为Java中的HTML文件。该函数将接受输入一个Word文档,输出将基于Word文档的页数的html文件,即如果Word文档有3页,那么将生成3个具有所需分页符的html文件。

我搜索了开源/非商业API,它们可以将doc转换为html,但没有结果。任何以前做过这种工作的人请帮忙。

谢谢


答案 1

我推荐JODConverter,它利用 OpenOffice.org,它为当今可用的OpenDocument和Microsoft Office格式提供了可以说是最好的导入/导出过滤器。

JODConverter有很多文档,脚本和教程来帮助您。


答案 2

我已经在新的MS Word XML格式不可用的生产系统中成功地使用了以下方法:

生成一个执行类似于以下内容的进程:

http://www.oooninja.com/2008/02/batch-command-line-file-conversion-with.html

您可能希望在程序启动时启动一次openoffice,并在程序期间根据需要多次调用python脚本(进行某种检查以确保ooffice进程始终存在)。

另一种选择是在每次需要执行转换时生成以下类型的命令:

ooffice -无头“macro://<要转换的ooffice vb宏的路径,参数指向file>”

我已经多次使用宏方法,它运行良好(抱歉,我没有可用的宏代码)。

虽然有通过MS Word做到这一点的机制,但它们从Java来说并不容易,并且确实需要其他支持程序来通过OLE驱动MS Word。

我以前也使用过abiword,它适用于许多文档,但确实与更复杂的文档混淆(ooffice似乎可以处理我扔给它的所有内容)。Abiword的转换命令行界面比ooffice稍微容易一些。