如何将HTML文本转换为纯文本?

2022-09-01 04:55:18

朋友的我必须从url解析描述,其中解析的内容有很少的html标签,所以我如何将其转换为纯文本。


答案 1

是的,Jsoup将是更好的选择。只需按照下面的操作,将整个HTML文本转换为纯文本。

String plainText= Jsoup.parse(yout_html_text).text();

答案 2

摆脱HTML标签很简单:

// replace all occurrences of one or more HTML tags with optional
// whitespace inbetween with a single space character 
String strippedText = htmlText.replaceAll("(?s)<[^>]*>(\\s*<[^>]*>)*", " ");

但不幸的是,这些要求从来都不是那么简单:

通常,元素需要单独处理,可能存在带有字符(例如javascript)的cdata块,这些字符会弄乱正则表达式等。<p><div>>