从 Java 中的字符串中删除无效的 XML 字符
2022-09-01 12:22:04
嗨,我想从字符串中删除所有无效的XML字符。我想在string.replace方法中使用正则表达式。
喜欢
line.replace(regExp,"");
什么是正确的正则表达式使用?
无效的 XML 字符是不是这个的所有内容:
[#x1-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]
谢谢。
嗨,我想从字符串中删除所有无效的XML字符。我想在string.replace方法中使用正则表达式。
喜欢
line.replace(regExp,"");
什么是正确的正则表达式使用?
无效的 XML 字符是不是这个的所有内容:
[#x1-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]
谢谢。
Java的正则表达式支持增进字符,因此您可以使用两个UTF-16编码的字符指定这些高范围。
下面是删除 XML 1.0 中非法字符的模式:
// XML 1.0
// #x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]
String xml10pattern = "[^"
+ "\u0009\r\n"
+ "\u0020-\uD7FF"
+ "\uE000-\uFFFD"
+ "\ud800\udc00-\udbff\udfff"
+ "]";
大多数人都需要 XML 1.0 版本。
下面是用于删除 XML 1.1 中非法字符的模式:
// XML 1.1
// [#x1-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]
String xml11pattern = "[^"
+ "\u0001-\uD7FF"
+ "\uE000-\uFFFD"
+ "\ud800\udc00-\udbff\udfff"
+ "]+";
您需要使用 String.replaceAll(...)
而不是 。String.replace(...)
String illegal = "Hello, World!\0";
String legal = illegal.replaceAll(pattern, "");
我们应该考虑代理角色吗?否则,'(当前>= 0x10000) &&(当前<= 0x10FFFF)“将永远不会为真。
还测试了正则表达式方式似乎比以下循环慢。
if (null == text || text.isEmpty()) {
return text;
}
final int len = text.length();
char current = 0;
int codePoint = 0;
StringBuilder sb = new StringBuilder();
for (int i = 0; i < len; i++) {
current = text.charAt(i);
boolean surrogate = false;
if (Character.isHighSurrogate(current)
&& i + 1 < len && Character.isLowSurrogate(text.charAt(i + 1))) {
surrogate = true;
codePoint = text.codePointAt(i++);
} else {
codePoint = current;
}
if ((codePoint == 0x9) || (codePoint == 0xA) || (codePoint == 0xD)
|| ((codePoint >= 0x20) && (codePoint <= 0xD7FF))
|| ((codePoint >= 0xE000) && (codePoint <= 0xFFFD))
|| ((codePoint >= 0x10000) && (codePoint <= 0x10FFFF))) {
sb.append(current);
if (surrogate) {
sb.append(text.charAt(i));
}
}
}