在 Java 中使用 XPath Contains against HTML
2022-09-02 03:30:48
我正在使用Java程序中的XPath从HTML页面中抓取值以访问特定标记,并且偶尔使用正则表达式来清理我收到的数据。
经过一些研究,我发现HTML Cleaner(http://htmlcleaner.sourceforge.net/)是将原始HTML解析为良好XML格式的最可靠方法。然而,HTML Cleaner只支持XPath 1.0,我发现自己需要像“contains”这样的函数。例如,在这段 XML 中:
<div>
<td id='1234 foo 5678'>Hello</td>
</div>
我希望能够使用以下XPath获得文本“Hello”:
//div/td[contains(@id, 'foo')]/text()
有没有办法获得此功能?我有几个想法,但如果我不需要,我宁愿不要重新发明轮子:
- 如果有一种方法可以调用HTML Cleaner的valueXPath并返回TagNode(我没有找到),我可以在返回的TagNode上使用XML序列化程序并将XPath链接在一起以实现所需的功能。
- 我可以使用HTML Cleaner清理到XML,将其序列化回字符串,并将其与另一个XPath库一起使用,但是我找不到一个好的java XPath评估器来处理字符串。
- 使用像getElementsByAttValue这样的TagNode函数,我基本上可以重新创建XPath计算并使用String.contains插入包含功能。
简短的问题:有没有办法在现有的Java库中使用HTML上的XPath包含?