如何在 Java 中删除 HTML 标记
是否有可以完全删除 HTML 标记的正则表达式?顺便说一句,我正在使用Java。
您应该改用 HTML 解析器。我喜欢htmlCleaner,因为它给了我一个非常印刷的HTML版本。
使用htmlCleaner,你可以做:
TagNode root = htmlCleaner.clean( stream );
Object[] found = root.evaluateXPath( "//div[id='something']" );
if( found.length > 0 && found instanceof TagNode ) {
((TagNode)found[0]).removeFromTree();
}