使用 Java 进行网页抓取jsoup

2022-08-31 13:27:04

我无法找到任何基于Java的WEB抓取API。我需要抓取的网站也不提供任何API;我想使用一些网页迭代所有网页,并在DOM树中提取HTML标题/其他东西。pageID

除了网络抓取之外,还有其他方法吗?


答案 1

jsoup

提取标题并不困难,并且您有很多选择,请在Stack Overflow上搜索“Java HTML解析器”。其中之一是Jsoup

如果您知道页面结构,则可以使用 DOM 导航页面,请参阅 http://jsoup.org/cookbook/extracting-data/dom-navigation

这是一个很好的库,我在上一个项目中已经用过它。


答案 2

您最好的选择是使用Selenium Web驱动程序,因为它

  1. 向编码人员提供视觉反馈(查看抓取的实际操作,查看其停止位置)

  2. 准确和一致,因为它直接控制您使用的浏览器。

  3. 慢。不会像HtmlUnit那样点击网页,但有时你不想太快点击。

    Htmlunit速度很快,但在处理Javascript和AJAX方面很糟糕。


推荐