如何使用Jsoup从相对HTML链接中提取绝对URL?

2022-09-02 09:59:49

我正在使用Jsoup来提取网页的URL。这些 URL 的属性是相对的,如下所示:href

<a href="/text">example</a>

这是我的尝试:

Document document = Jsoup.connect(url).get();
Elements results = document.select("div.results");
Elements dls = results.select("dl");
for (Element dl : dls) {
    String url = dl.select("a").attr("href");
}

这工作正常,但如果我使用

String url = dl.select("a").attr("abs:href");

要获取绝对 URL,如 ,它不起作用。如何获取绝对网址?http://example.com/text


答案 1

你需要 Element#absUrl()

String url = dl.select("a").absUrl("href");

顺便说一句,您可以缩短选择时间:

Document document = Jsoup.connect(url).get();
Elements links = document.select("div.results dl a");
for (Element link : links) {
    String url = link.absUrl("href");
}

答案 2

String url = dl.select("a").absUrl("href");

不正确,因为不会返回单个项目,而是返回集合。您需要按索引获取元素dl.select("a")

例如:

Elements elems = dl.select("a");
Element a1 = elems.get(0); //0 is the index first element increasing to (elems.size()-1)
now you can do
a1.absUrl("href");

如果您确定上面的选择只会产生一个项目,或者您想要的项目将是第一个项目,则可以:

String url = dl.select("a").get(0).absUrl("href"); 

这也与

String url = dl.select("a").first().absUrl("href");

无论如何,它不必是第一个元素,您可以随时将0 in替换为元素的索引。或者使用更具体的选择,只产生一个元素。String url = dl.select("a").get(0).absUrl("href");