Jsoup在Google App Engine上运行不正确

2022-09-03 03:06:05

我尝试使用JSoup登录Facebook,当使用控制台应用程序或Tomcat服务器web应用程序进行测试时,它运行良好:

String userAgent = BrowserVersion.FIREFOX_38.getUserAgent();
Connection conn1 = Jsoup.connect("https://m.facebook.com");
Document document = conn1.userAgent(userAgent).execute().parse();
Element form = document.select("form").get(0);
Elements inputs = form.select("input");
Connection conn2 = Jsoup.connect(form.absUrl("action")).userAgent(userAgent);
for (Element input: inputs) {
    conn2.data(input.attr("name"), input.val());
}
conn2.data("email", "mail@gmail.com").data("pass", "mypass");
Connection.Response response1 = conn2.method(Connection.Method.POST).execute();
System.out.println(response1.url());
Document doc1 = response1.parse();
Elements h3 = doc1.select("h3");
for (Element element: h3) {
    System.out.println(element.text());
}

response1.url() 是 https://m.facebook.com/home.php?_rdr

但是当我尝试使用Google App Engine应用程序时,它无法登录,但会显示带有消息“您必须先登录”的页面(我猜请求尝试访问其他网址)

response1.url() https://m.facebook.com/login.php?next=https%3A%2F%2Fm.facebook.com%2Fhome.php%3Frefsrc%3Dhttps%253A%252F%252Fm.facebook.com%252F%26refid%3D8&refsrc=https%3A%2F%2Fm.facebook.com%2F&refid=8&_rdr

我更改密码使其不正确,它显示不正确的密码页面。所以我认为使用正确的密码,请求会转到正确的页面。但是为什么使用正确的密码,它会重定向到其他页面?我不认为控制台应用程序和GAE之间有任何不同之处,使请求不同!


答案 1

当您从服务器创建出站 HTTP 请求时,App Engine 可能会不时地做一些奇怪的事情。根据 JSoup 实现底层请求的方式,可能会混淆某些内容。在引擎盖下,它可能需要使用urlfetch

你可以在这里尝试的一件事是使用App Engine Flexible。出站请求不会通过UrlFetch或Sockets API进行管道传输,因为最终您的应用程序只是在Google Compute Engine上运行。

如果您的应用没有使用大量 App Engine API,这可能是解决此问题的简单方法。

希望这有帮助!


答案 2

我建议在成功登录后,Facebook返回一些重定向(几个连续重定向?)作为响应。

当您在 GAE 之外运行应用程序时,java 只是自动跟踪这些重定向,并最终返回。https://m.facebook.com/home.php?_rdr

另一方面,在 GAE 中运行时,GAE 的 URLFetch 库最多只能跟踪 5 个重定向(如果配置了,则不跟踪任何重定向)。

如果是这种情况,那么您可以在代码中遵循这些重定向。

你也可以打印来检查这个假设吗?response1.statusCode()


推荐