用于 HTML 到文本转换的开源 Java 库

2022-09-02 01:37:38

你能推荐一个开源的Java库(最好是ASL / BSD / LGPL许可证)将HTML转换为文本 - 清理所有标签,转换实体(&,等)并正确处理<br>和表格。

更多信息

我有一个字符串,没有必要从网上获取它。另外,我正在寻找这样的方法:

String convertHtmlToPlainText(String html)

答案 1

试试耶利哥

TextExtractor 类听起来好像可以做你想做的事。很抱歉,由于我是新用户,因此无法发布第二个链接,但向下滚动主页,然后有一个链接。


答案 2

HtmlUnit,它甚至在处理JavaScript / Ajax后显示页面。