如何在 Java 中删除 HTML 标记

2022-09-03 08:32:05

是否有可以完全删除 HTML 标记的正则表达式?顺便说一句,我正在使用Java。


答案 1

JSoup,它是一个为HTML操作而制作的Java库。查看方法和对象。易于使用的解决方案!clean()WhiteList


答案 2

您应该改用 HTML 解析器。我喜欢htmlCleaner,因为它给了我一个非常印刷的HTML版本。

使用htmlCleaner,你可以做:

TagNode root = htmlCleaner.clean( stream );
Object[] found = root.evaluateXPath( "//div[id='something']" );
if( found.length > 0 && found instanceof TagNode ) {
    ((TagNode)found[0]).removeFromTree();
}