Java HTML Parsing [已关闭]

html parsing java web-scraping

2022-08-31 20:05:17

我正在开发一个从网站上抓取数据的应用程序，我想知道我应该如何获取数据。具体来说，我需要包含在许多使用特定CSS类的div标签中的数据 - 目前（出于测试目的）我只是在检查

div class = "classname"

在每行HTML中 - 这有效，但我不禁觉得有更好的解决方案。

有没有一种好方法可以给一个类一行HTML，并有一些不错的方法，比如：

boolean usesClass(String CSSClassname);
String getText();
String getLink();

答案 1

另一个可能对HTML处理有用的库是jsoup。Jsoup试图清理格式错误的HTML，并允许使用jQuery（如标签选择器语法）在Java中解析html。

http://jsoup.org/

答案 2

如前所述，主要问题是格式错误的HTML，因此必须使用html清理器或HTML-XML转换器。一旦你得到了XML代码（XHTML），就有很多工具来处理它。你可以使用一个简单的SAX处理程序来获得它，它只提取你需要的数据，或者任何基于树的方法（DOM，JDOM等），甚至可以让你修改原始代码。

下面是一个示例代码，它使用 HTML 清理程序获取使用某个类的所有 DIV，并打印出其中的所有 Text 内容。

import java.io.IOException;
import java.net.URL;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;

import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;

/**
 * @author Fernando Miguélez Palomo <fernandoDOTmiguelezATgmailDOTcom>
 */
public class TestHtmlParse
{
    static final String className = "tags";
    static final String url = "http://www.stackoverflow.com";

    TagNode rootNode;

    public TestHtmlParse(URL htmlPage) throws IOException
    {
        HtmlCleaner cleaner = new HtmlCleaner();
        rootNode = cleaner.clean(htmlPage);
    }

    List getDivsByClass(String CSSClassname)
    {
        List divList = new ArrayList();

        TagNode divElements[] = rootNode.getElementsByName("div", true);
        for (int i = 0; divElements != null && i < divElements.length; i++)
        {
            String classType = divElements[i].getAttributeByName("class");
            if (classType != null && classType.equals(CSSClassname))
            {
                divList.add(divElements[i]);
            }
        }

        return divList;
    }

    public static void main(String[] args)
    {
        try
        {
            TestHtmlParse thp = new TestHtmlParse(new URL(url));

            List divs = thp.getDivsByClass(className);
            System.out.println("*** Text of DIVs with class '"+className+"' at '"+url+"' ***");
            for (Iterator iterator = divs.iterator(); iterator.hasNext();)
            {
                TagNode divElement = (TagNode) iterator.next();
                System.out.println("Text child nodes of DIV: " + divElement.getText().toString());
            }
        }
        catch(Exception e)
        {
            e.printStackTrace();
        }
    }
}