我可以使用 WGET 生成给定网址的网站站点地图吗?

2022-08-30 22:53:42

我需要一个脚本,可以蜘蛛网站并以纯文本或类似格式返回所有已抓取页面的列表;我将作为站点地图提交给搜索引擎。我可以使用 WGET 生成网站的站点地图吗?或者有没有一个PHP脚本可以做同样的事情?


答案 1
wget --spider --recursive --no-verbose --output-file=wgetlog.txt http://somewebsite.com
sed -n "s@.\+ URL:\([^ ]\+\) .\+@\1@p" wgetlog.txt | sed "s@&@\&@" > sedlog.txt

这将创建一个名为的文件,其中包含在指定网站上找到的所有链接。您可以使用 PHP 或 shell 脚本将文本文件站点地图转换为 XML 站点地图。调整 wget 命令的参数(接受/拒绝/包含/排除)以仅获取所需的链接。sedlog.txt


答案 2

你可以用这个perl脚本来做这个把戏:http://code.google.com/p/perlsitemapgenerator/


推荐