从 HTML Java 中提取文本jsoup
2022-09-02 11:54:12
我正在开发一个程序,该程序下载HTML页面,然后选择一些信息并将其写入另一个文件。
我想提取段落标签之间的信息,但我只能得到段落的一行。我的代码如下;
FileReader fileReader = new FileReader(file);
BufferedReader buffRd = new BufferedReader(fileReader);
BufferedWriter out = new BufferedWriter(new FileWriter(newFile.txt));
String s;
while ((s = br.readLine()) !=null) {
if(s.contains("<p>")) {
try {
out.write(s);
} catch (IOException e) {
}
}
}
我试图添加另一个while循环,这将告诉程序继续写入文件,直到行包含标签,通过说;</p>
while ((s = br.readLine()) !=null) {
if(s.contains("<p>")) {
while(!s.contains("</p>") {
try {
out.write(s);
} catch (IOException e) {
}
}
}
}
但这行不通。有人可以帮忙吗?