Php 中的 HTML 抓取
2022-08-30 12:28:27
我一直在使用正则表达式在PHP中进行一些HTML抓取。这有效,但结果是挑剔和脆弱的。有没有人使用过任何提供更强大解决方案的软件包?配置驱动的解决方案将是理想的,但我并不挑剔。
我一直在使用正则表达式在PHP中进行一些HTML抓取。这有效,但结果是挑剔和脆弱的。有没有人使用过任何提供更强大解决方案的软件包?配置驱动的解决方案将是理想的,但我并不挑剔。
如果您要抓取的页面是有效的 X(HT)ML,那么 PHP 的任何内置 XML 解析器都可以。
我在PHP库的抓取方面没有取得多大成功。如果你喜欢冒险,你可以尝试简单的htmldom。我会推荐Hpricot for Ruby或Beautiful Soup for Python,它们都是HTML的优秀解析器。