如何将HTML文本转换为纯文本?
朋友的我必须从url解析描述,其中解析的内容有很少的html标签,所以我如何将其转换为纯文本。
是的,Jsoup将是更好的选择。只需按照下面的操作,将整个HTML文本转换为纯文本。
String plainText= Jsoup.parse(yout_html_text).text();
摆脱HTML标签很简单:
// replace all occurrences of one or more HTML tags with optional
// whitespace inbetween with a single space character
String strippedText = htmlText.replaceAll("(?s)<[^>]*>(\\s*<[^>]*>)*", " ");
但不幸的是,这些要求从来都不是那么简单:
通常,元素需要单独处理,可能存在带有字符(例如javascript)的cdata块,这些字符会弄乱正则表达式等。<p>
<div>
>