Facebook爬虫正在重击我的服务器并忽略指令。多次访问相同的资源
Facebook爬虫每秒多次访问我的服务器,它似乎忽略了 Expires 标头和 og:ttl 属性。
在某些情况下,它会在 1-5 分钟内多次访问相同的 og:image 资源。在一个示例中 - 爬虫在3分钟内使用12个不同的IP地址访问了同一图像12次。
在我捕获以下示例之前,我只需要记录请求10分钟:
一个映像的时间和爬网程序 IP 地址列表:
2018-03-30 15:12:58 - 66.220.156.145
2018-03-30 15:13:13 - 66.220.152.7
2018-03-30 15:12:59 - 66.220.152.100
2018-03-30 15:12:18 - 66.220.155.248
2018-03-30 15:12:59 - 173.252.124.29
2018-03-30 15:12:15 - 173.252.114.118
2018-03-30 15:12:42 - 173.252.85.205
2018-03-30 15:13:01 - 173.252.84.117
2018-03-30 15:12:40 - 66.220.148.100
2018-03-30 15:13:10 - 66.220.148.169
2018-03-30 15:15:16 - 173.252.99.50
2018-03-30 15:14:50 - 69.171.225.134
根据Facebook的文档,og:image是什么:
当有人将内容分享到 Facebook 时显示的图片的网址。有关详细信息,请参阅下文,并查看我们的最佳做法指南,了解如何指定高质量的预览图像。
我在 og:image 中使用的图像将 Expires 标头设置为 +7 天。最近,我将其更改为+1年。这两种设置似乎都没有任何区别。爬网程序似乎忽略的标头:
Cache-Control: max-age=604800
Content-Length: 31048
Content-Type: image/jpeg
Date: Fri, 30 Mar 2018 15:56:47 GMT
Expires: Sat, 30 Mar 2019 15:56:47 GMT
Pragma: public
Server: nginx/1.4.6 (Ubuntu)
Transfer-Encoding: chunked
X-Powered-By: PHP/5.5.9-1ubuntu4.23
根据 Facebook 的 Object Properties 文档,og:ttl 属性是:
几秒钟,直到这个页面应该被重新抓取。使用此选项可对 Facebook 内容抓取工具进行速率限制。允许的最小值为 345600 秒(4 天);如果设置较低的值,将使用最小值。如果未包含此标记,则将从 Web 服务器返回的“Expires”标头计算 ttl,否则它将默认为 7 天。
我已将此 og:ttl 属性设置为 2419200,即未来的 28 天。
我一直想使用这样的东西:
header("HTTP/1.1 304 Not Modified");
exit;
但我担心的是,Facebook的抓取工具会忽略标题并将图像标记为已损坏 - 从而从共享故事中删除图像预览。
显示来自爬网程序的这些请求传入的速率的视频。
有没有办法防止爬虫这么快就回来攻击这些资源?
示例代码显示了我的开放图形和元属性的外观:
<meta property="fb:app_id" content="MyAppId" />
<meta property="og:locale" content="en_GB" />
<meta property="og:type" content="website" />
<meta property="og:title" content="My title" />
<meta property="og:description" content="My description" />
<meta property="og:url" content="http://example.com/index.php?id=1234" />
<link rel="canonical" href="http://example.com/index.php?id=1234" />
<meta property="og:site_name" content="My Site Name" />
<meta property="og:image" content="http://fb.example.com/img/image.php?id=123790824792439jikfio09248384790283940829044" />
<meta property="og:image:width" content="940"/>
<meta property="og:image:height" content="491"/>
<meta property="og:ttl" content="2419200" />