对大小写不敏感比较器的实现感到好奇

2022-09-02 10:01:06

当我检查的实现时,这是私有的内在类,我发现了奇怪的事情。CaseInsensitiveComparatorString

private static class CaseInsensitiveComparator
        implements Comparator<String>, java.io.Serializable {
    ...
    public int compare(String s1, String s2) {
        int n1 = s1.length();
        int n2 = s2.length();
        int min = Math.min(n1, n2);
        for (int i = 0; i < min; i++) {
            char c1 = s1.charAt(i);
            char c2 = s2.charAt(i);
            if (c1 != c2) {
                c1 = Character.toUpperCase(c1);
                c2 = Character.toUpperCase(c2);
                if (c1 != c2) {
                    c1 = Character.toLowerCase(c1);
                    c2 = Character.toLowerCase(c2);
                    if (c1 != c2) {
                        // No overflow because of numeric promotion
                        return c1 - c2;
                    }
                }
            }
        }
        return n1 - n2;
    }
    ...
}

我很好奇的是:在循环中,一旦你比较了大写字符,为什么你应该再次比较小写字符?当 和 不同时,是否有可能 和 是相等的?forCharacter.toUpperCase(c1)Character.toUpperCase(c2)Character.toLowerCase(c1)Character.toLowerCase(c2)

难道不能这样简化吗?

public int compare(String s1, String s2) {
    int n1 = s1.length();
    int n2 = s2.length();
    int min = Math.min(n1, n2);
    for (int i = 0; i < min; i++) {
        char c1 = s1.charAt(i);
        char c2 = s2.charAt(i);
        if (c1 != c2) {
            c1 = Character.toUpperCase(c1);
            c2 = Character.toUpperCase(c2);
            if (c1 != c2) {
                // No overflow because of numeric promotion
                return c1 - c2;
            }
        }
    }
    return n1 - n2;
}

我错过了什么吗?


答案 1

有些 Unicode 字符的小写字母不同,但具有相同的大写形式。例如,希腊字母Sigma - 它有两个小写形式(σ和ς,它只在单词的末尾使用),但只有一个大写形式(Σ)。

我找不到任何相反的例子,但是如果将来发生这种情况,当前的Java实现已经为此做好了准备。您的版本肯定会正确处理 Sigma 情况。Comparator

您可以在 Unicode 网站上的案例映射常见问题解答中找到更多信息。


答案 2