HTML/XML Parser for Java [已关闭]

2022-09-01 09:56:41

哪些 HTML 解析器具有以下功能:

  • 线程安全
  • 可靠且无缺陷
  • 解析 HTML 和 XML
  • 处理错误的 HTML
  • 具有 DOM 实现
  • 支持 HTML4、JavaScript 和 CSS 标签
  • 相对简单、面向对象的 API

您认为哪个解析器更好?

谢谢。


答案 1

查看 Web Harvest。它既是一个你可以使用的库,也是一个数据提取工具,在我看来,这正是你想要做的。您可以创建 XML 脚本文件,以指示抓取程序如何提取所需的信息以及从何处提取信息。提供的 GUI 对于快速测试脚本非常有用。

查看项目的示例页面,看看它是否适合你尝试执行的操作。


答案 2

最著名的是NekoHTMLJTidy

NekoHTML基于Xerces,并提供了一个简单的适应性SAXParser,它实现了XMLReader JavaSE接口。

JTidy更倾向于将html代码格式化为XML有效的东西,但作为XML解析器仍然非常有用,如果需要,可以生成DOM树。

您可以查看此列表以获取其他替代方案。

另一种选择可能是通过jRuby使用hpricot