将 Unicode 字母与 Java 正则表达式匹配(例如)
2022-09-03 06:00:28
StackOverflow上有很多问题和答案,假设一个“字母”可以在正则表达式中由 匹配。然而,对于Unicode,还有更多的字符,大多数人会认为是一个字母(所有希腊字母,Cyrllic......等等)。Unicode 定义了许多块,每个块可能都有“字母”。[a-zA-Z]
Java 定义为字母字符等内容定义了 Posix 类,但指定它仅适用于 US-ASCII。预定义的字符类定义由 组成的单词,这也排除了许多字母。[a-zA-Z_0-9]
那么,如何正确匹配 Unicode 字符串呢?还有其他一些库可以做到这一点吗?