JSoup.connect抛出403错误,而apache.httpclient能够获取内容

2022-09-02 11:42:57

我正在尝试解析任何给定页面的HTML转储。我使用HTML解析器,还尝试了JSoup进行解析。

我在Jsoup中找到了有用的函数,但我在调用时收到403错误Document doc = Jsoup.connect(url).get();

我尝试了HTTPClient,以获取html转储,并且对于相同的URL是成功的。

为什么JSoup为来自共享资源http客户端的内容提供相同的URL提供403?我做错了什么吗?有什么想法吗?


答案 1

工作解决方案如下(感谢Angelo Neuschitzer提醒将其作为解决方案):

Document doc = Jsoup.connect(url).userAgent("Mozilla").get();
Elements links = doc.getElementsByTag(HTML.Tag.CITE.toString);
for (Element link : links) {
            String linkText = link.text();
            System.out.println(linkText);
}

因此,userAgent:)


答案 2

推荐