Php 中的 HTML 抓取

2022-08-30 12:28:27

我一直在使用正则表达式在PHP中进行一些HTML抓取。这有效,但结果是挑剔和脆弱的。有没有人使用过任何提供更强大解决方案的软件包?配置驱动的解决方案将是理想的,但我并不挑剔。


答案 1

我会推荐PHP Simple HTML DOM Parser,在你从页面中抓取了HTML之后。它支持无效的HTML,并提供了一种非常简单的方法来处理HTML元素。


答案 2

如果您要抓取的页面是有效的 X(HT)ML,那么 PHP 的任何内置 XML 解析器都可以。

我在PHP库的抓取方面没有取得多大成功。如果你喜欢冒险,你可以尝试简单的htmldom。我会推荐Hpricot for Ruby或Beautiful Soup for Python,它们都是HTML的优秀解析器。


推荐