JSoup.connect抛出403错误，而apache.httpclient能够获取内容

html-parsing java jsoup

2022-09-02 11:42:57

我正在尝试解析任何给定页面的HTML转储。我使用HTML解析器，还尝试了JSoup进行解析。

我在Jsoup中找到了有用的函数，但我在调用时收到403错误Document doc = Jsoup.connect(url).get();

我尝试了HTTPClient，以获取html转储，并且对于相同的URL是成功的。

为什么JSoup为来自共享资源http客户端的内容提供相同的URL提供403？我做错了什么吗？有什么想法吗？

答案 1

工作解决方案如下（感谢Angelo Neuschitzer提醒将其作为解决方案）：

Document doc = Jsoup.connect(url).userAgent("Mozilla").get();
Elements links = doc.getElementsByTag(HTML.Tag.CITE.toString);
for (Element link : links) {
            String linkText = link.text();
            System.out.println(linkText);
}

因此，userAgent:)

答案 2

推荐

php html html-parsing
PHP： HTML：在 POST 中发送 HTML 选择选项属性我想发送所选项目值以及某些属性（stud_name）值。PHP中是否有任何功能可以做到这一点？下面是示例一。
php parsing html-parsing domdocument
使用DOMDocument，是否可以获取某个DOM中存在的所有元素？假设我有一个HTML文件，其中包含许多不同的元素，每个元素都有不同的属性。假设我事先不知道这个HTML会是什么样子。使用PHP的DOMDocument，我如何迭代所有元素并修改它们？我看到的只是getElem
php html-parsing file-get-contents
使用file_get_contents解析 html 表到 php 数组我正在尝试将，这是我从哪里获得parseTable（）函数的。通过阅读该网站上的评论，我看到该功能运行良好。所以我假设我从file_get_contents（）获取HTML代码的方式有问题。对我做错了什么有什么想
php regex html-parsing
php 正则表达式，用于获取 href 标记内的字符串我需要一个正则表达式，它将在href标签内和引号内为我提供字符串。例如，我需要提取以下内容中的 theurltoget.com：此外，我只想要基本网址部分。即从我只想
html parsing html-parsing java web-scraping
如何使用 Java 有效地解析 HTML？我在我的工作中做了很多HTML解析。到目前为止，我一直在使用HtmlUnit无外设浏览器进行解析和浏览器自动化。现在，我想将这两个任务分开。我想使用一个轻量级的HTML解析器，因为在HtmlUnit中�