如何像模拟 Web 浏览器一样模拟 get 请求?

2022-08-30 09:45:52

有些网站当我在浏览器上打开特定的ajax请求时,我会得到结果页面。但是当我尝试使用curl加载它们时,我收到来自服务器的错误。

如何正确模拟对将模拟浏览器的服务器的 get 请求?

这就是我正在做的:

$url="https://new.aol.com/productsweb/subflows/ScreenNameFlow/AjaxSNAction.do?s=username&f=firstname&l=lastname";
ini_set('user_agent', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT
5.1; SV1; .NET CLR 1.0.3705; .NET CLR 1.1.4322)');
$ch = curl_init();

curl_setopt($ch, CURLOPT_URL,$url);
$result=curl_exec($ch);
print $result;

答案 1

你确定 curl 模块符合 ini_set('user_agent',...)吗?http://docs.php.net/function.curl-setopt 中CURLOPT_USERAGENT描述了一个选项。
服务器是否也会测试一个cookie?您可以使用CURLOPT_COOKIE、CURLOPT_COOKIEFILE和/或CURLOPT_COOKIEJAR来处理。

编辑:由于请求使用https,因此验证证书时也可能出错,请参阅CURLOPT_SSL_VERIFYPEER。

$url="https://new.aol.com/productsweb/subflows/ScreenNameFlow/AjaxSNAction.do?s=username&f=firstname&l=lastname";
$agent= 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.0.3705; .NET CLR 1.1.4322)';

$ch = curl_init();
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($ch, CURLOPT_VERBOSE, true);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_USERAGENT, $agent);
curl_setopt($ch, CURLOPT_URL,$url);
$result=curl_exec($ch);
var_dump($result);

答案 2

我会举个例子,首先决定你要模拟的浏览器,在这种情况下,我选择了,并检查GET请求它的问题,这可以通过一个简单的netcat服务器获得(MacOS捆绑netcat,大多数Linux发行版bunles netcat,Windows用户可以从中获取netcat..Cygwin.org,以及其他地方),Firefox 60.6.1esr (64-bit)

将 netcat 服务器设置为侦听端口 9999:nc -l 9999

现在在火狐中击中 http://127.0.0.1:9999,我得到:

$ nc -l 9999
GET / HTTP/1.1
Host: 127.0.0.1:9999
User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-US,en;q=0.5
Accept-Encoding: gzip, deflate
Connection: keep-alive
Upgrade-Insecure-Requests: 1

现在让我们用这个简单的脚本来比较一下:

<?php
$ch=curl_init("http://127.0.0.1:9999");
curl_exec($ch);

我得到:

$ nc -l 9999
GET / HTTP/1.1
Host: 127.0.0.1:9999
Accept: */*

这里有几个缺失的标头,它们都可以使用curl_setopt的CURLOPT_HTTPHEADER选项添加,但具体应该使用CURLOPT_USERAGENT代替(它将在对curl_exec()的多个调用中持久存在,如果您使用CURLOPT_FOLLOWLOCATION那么它也将在http重定向中保留),并且标头应该使用CURLOPT_ENCODING设置(如果它们设置为CURLOPT_ENCODING则curl将自动解压缩如果服务器选择压缩它,但是如果您通过CURLOPT_HTTPHEADER设置它,那么您必须自己手动检测和解压缩内容,这是一个痛苦的屁股,完全没有必要,一般来说),所以添加那些我们得到的:User-AgentAccept-Encoding

<?php
$ch=curl_init("http://127.0.0.1:9999");
curl_setopt_array($ch,array(
        CURLOPT_USERAGENT=>'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0',
        CURLOPT_ENCODING=>'gzip, deflate',
        CURLOPT_HTTPHEADER=>array(
                'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
                'Accept-Language: en-US,en;q=0.5',
                'Connection: keep-alive',
                'Upgrade-Insecure-Requests: 1',
        ),
));
curl_exec($ch);

现在运行该代码,我们的netcat服务器得到:

$ nc -l 9999
GET / HTTP/1.1
Host: 127.0.0.1:9999
User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0
Accept-Encoding: gzip, deflate
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-US,en;q=0.5
Connection: keep-alive
Upgrade-Insecure-Requests: 1

瞧!我们模拟的 php GET 请求现在应该与真正的 firefox GET 请求没有区别:)browser

下一部分只是挑剔,但如果你仔细观察,你会发现标头以错误的顺序堆叠,firefox将标头放在第6行,而我们模拟的GET请求将其放在第3行。要解决此问题,我们可以手动将接受编码标头放在正确的行中,Accept-Encoding

<?php
$ch=curl_init("http://127.0.0.1:9999");
curl_setopt_array($ch,array(
        CURLOPT_USERAGENT=>'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0',
        CURLOPT_ENCODING=>'gzip, deflate',
        CURLOPT_HTTPHEADER=>array(
                'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
                'Accept-Language: en-US,en;q=0.5',
                'Accept-Encoding: gzip, deflate',
                'Connection: keep-alive',
                'Upgrade-Insecure-Requests: 1',
        ),
));
curl_exec($ch);

运行它,我们的netcat服务器得到:

$ nc -l 9999
GET / HTTP/1.1
Host: 127.0.0.1:9999
User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-US,en;q=0.5
Accept-Encoding: gzip, deflate
Connection: keep-alive
Upgrade-Insecure-Requests: 1

问题解决了,现在头文件甚至以正确的顺序排列,并且请求似乎与真正的firefox请求完全无法区分:)(我实际上并不推荐这最后一步,保持CURLOPT_ENCODING与自定义接受编码标头同步是一种维护负担,而且我从未遇到过标头顺序很重要的情况)


推荐