如何使用 Java 有效地解析 HTML?
2022-08-31 06:13:47
我在我的工作中做了很多HTML解析。到目前为止,我一直在使用HtmlUnit无外设浏览器进行解析和浏览器自动化。
现在,我想将这两个任务分开。
我想使用一个轻量级的HTML解析器,因为在HtmlUnit中,首先加载一个页面,然后获取源代码,然后解析它需要花费很多时间。
我想知道哪个HTML解析器可以有效地解析HTML。我需要
- 速度
- 通过“id”或“name”或“tag type”轻松找到任何HtmlElement。
如果它不清理肮脏的HTML代码,对我来说没关系。我不需要清理任何HTML源代码。我只需要一种最简单的方法来跨HtmlElements移动并从中收集数据。