如何避免在Jsoup解析中包围html头标签
使用Jsoup,我试图解析给定的html内容。在 Jsoup.parse() 之后,html 输出将 html、head 和 body 标记附加到输入中。我只想忽略这些。
示例输入:
<p><b>This <i>is</i></b> <i>my sentence</i> of text.</p>
Java 代码:
import java.io.File;
import java.io.IOException;
import org.apache.commons.io.FileUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class HTMLParse {
public static void main(String args[]) throws IOException {
try{
File input = new File("/ab.html");
String html = FileUtils.readFileToString(input, null);
Document doc = Jsoup.parseBodyFragment(html);
doc.outputSettings().prettyPrint(false);
System.out.println(doc.html());
}
catch(Exception e){
e.printStackTrace();
}
}
}
实际输出:
<html><head></head><body><p><b>This <i>is</i></b> <i>my sentence</i> of text.</p>
</body></html>
预期输出:
<p><b>This <i>is</i></b> <i>my sentence</i> of text.</p>
请帮忙。