如何“扫描”网站(或页面)以获取信息,并将其带入我的程序?
2022-08-31 16:50:12
好吧,我几乎正在尝试弄清楚如何从网页中提取信息,并将其带入我的程序(在Java中)。
例如,如果我知道我想要从中获取信息的确切页面,为了简单起见,百思买项目页面,我如何从该页面获取所需的适当信息?喜欢标题,价格,描述吗?
这个过程究竟叫什么?我甚至不知道是否要开始研究这个问题。
编辑:好的,我正在运行JSoup(BalusC发布的测试),但我一直收到这个错误:
Exception in thread "main" java.lang.NoSuchMethodError: java.util.LinkedList.peekFirst()Ljava/lang/Object;
at org.jsoup.parser.TokenQueue.consumeWord(TokenQueue.java:209)
at org.jsoup.parser.Parser.parseStartTag(Parser.java:117)
at org.jsoup.parser.Parser.parse(Parser.java:76)
at org.jsoup.parser.Parser.parse(Parser.java:51)
at org.jsoup.Jsoup.parse(Jsoup.java:28)
at org.jsoup.Jsoup.parse(Jsoup.java:56)
at test.main(test.java:12)
我有Apache Commons