为什么 \R 在 Java 8 和 Java 9 之间的正则表达式中的行为不同?

2022-08-31 12:53:59

以下代码在 Java 8 和 9 中编译,但行为不同。

class Simple {
    static String sample = "\nEn un lugar\r\nde la Mancha\nde cuyo nombre\r\nno quiero acordarme";

    public static void main(String args[]){
        String[] chunks = sample.split("\\R\\R");
        for (String chunk: chunks) {
            System.out.println("Chunk : "+chunk);
        }
    }
}

当我使用Java 8运行它时,它返回:

Chunk : 
En un lugar
de la Mancha
de cuyo nombre
no quiero acordarme

但是当我用Java 9运行它时,输出是不同的:

Chunk : 
En un lugar
Chunk : de la Mancha
de cuyo nombre
Chunk : no quiero acordarme

为什么?


答案 2

Java 文档不符合 Unicode 标准。Javadoc歪曲了应该匹配的内容。上面写着:\R

\R任何 Unicode 换行序列 等效于\u000D\u000A|[\u000A\u000B\u000C\u000D\u0085\u2028\u2029]

Java文档是错误的。在 R1.6 换行符部分,Unicode 正则表达式技术标准 #18 明确指出:

强烈建议使用正则表达式元字符(如“\R”)来匹配上面列出的所有行尾字符和序列(例如,在#1中)。这将对应于与以下表达式等效的内容。由于需要避免备份,该表达式稍微复杂一些。

 (?:\u{D A}|(?!\u{D A})[\u{A}-\u{D}\u{85}\u{2028}\u{2029}]

换句话说,它只能匹配两个码位 CR+LF(回车符 + 换行符)序列,或者匹配该集合中的单个码位,前提是它不仅仅是一个回车符,然后跟一个换行符。那是因为它不允许备份。CRLF 必须是原子的,才能正常运行。\R

因此,Java 9 不再符合 R1.6 强烈建议的内容。此外,它现在正在做一些在Java 8中不应该做的事情,也没有做过。

看来是时候让我再给谢尔曼(读作:沈雪明)一声呐喊了。我以前曾与他合作过这些正式合规的细节问题。