什么是最好的开源Web爬虫工具,用Java编写。
尝试爬虫4j。您只需要实现一个简单的界面,该界面控制要访问的URL以及如何处理每个抓取的页面。
在java中,我认为它归结为Nutch vs Heritrix。您应该指定您的需求以获得更好的答案。