jsoup - 去除所有格式和链接标签,仅保留文本
假设我有一个这样的html片段:
<p> <span> foo </span> <em> bar <a> foobar </a> baz </em> </p>
我想从中提取的是:
foo bar foobar baz
所以我的问题是:如何从html中剥离所有包装标签,并仅以与html中相同的顺序获取文本?正如你在标题中看到的,我想使用jsoup进行解析。
重音 html 的示例(请注意“á”字符):
<p><strong>Tarthatatlan biztonsági viszonyok</strong></p>
<p><strong>Tarthatatlan biztonsági viszonyok</strong></p>
我想要什么:
Tarthatatlan biztonsági viszonyok
Tarthatatlan biztonsági viszonyok
这个html不是静态的,一般我只是想要一个通用的html片段的每个文本,以解码的人类可读形式,宽度换行符。