在 Java 中使用 XPath Contains against HTML

xpath html-parsing java

2022-09-02 03:30:48

我正在使用Java程序中的XPath从HTML页面中抓取值以访问特定标记，并且偶尔使用正则表达式来清理我收到的数据。

经过一些研究，我发现HTML Cleaner（http://htmlcleaner.sourceforge.net/）是将原始HTML解析为良好XML格式的最可靠方法。然而，HTML Cleaner只支持XPath 1.0，我发现自己需要像“contains”这样的函数。例如，在这段 XML 中：

<div>
  <td id='1234 foo 5678'>Hello</td>
</div>

我希望能够使用以下XPath获得文本“Hello”：

//div/td[contains(@id, 'foo')]/text()

有没有办法获得此功能？我有几个想法，但如果我不需要，我宁愿不要重新发明轮子：

如果有一种方法可以调用HTML Cleaner的valueXPath并返回TagNode（我没有找到），我可以在返回的TagNode上使用XML序列化程序并将XPath链接在一起以实现所需的功能。
我可以使用HTML Cleaner清理到XML，将其序列化回字符串，并将其与另一个XPath库一起使用，但是我找不到一个好的java XPath评估器来处理字符串。
使用像getElementsByAttValue这样的TagNode函数，我基本上可以重新创建XPath计算并使用String.contains插入包含功能。

简短的问题：有没有办法在现有的Java库中使用HTML上的XPath包含？

答案 1

关于这一点：

我可以使用HTML Cleaner清理到XML，将其序列化回字符串，并将其与另一个XPath库一起使用，但是我找不到一个好的java XPath评估器来处理字符串。

这正是我要做的（除了你不需要对字符串进行操作（见下文））。

许多HTML解析器试图做太多事情。例如，HTMLCleaner不能正确/完全实现XPath 1.0规范（例如）是XPath 1.0函数）。好消息是你不需要它。HTMLCleaner所需要的只是解析格式错误的输入。完成此操作后，最好使用标准 XML 接口来处理生成的（现在格式正确的）文档。contains

首先将文档转换为如下所示的标准：org.w3c.dom.Document

TagNode tagNode = new HtmlCleaner().clean(
        "<div><table><td id='1234 foo 5678'>Hello</td>");
org.w3c.dom.Document doc = new DomSerializer(
        new CleanerProperties()).createDOM(tagNode);

然后使用标准的 JAXP 接口来查询它：

XPath xpath = XPathFactory.newInstance().newXPath();
String str = (String) xpath.evaluate("//div//td[contains(@id, 'foo')]/text()", 
                       doc, XPathConstants.STRING);
System.out.println(str);

输出：

Hello

答案 2