如何在Java中匹配括号内的字符串(嵌套)?

2022-09-03 12:26:44

我想在括号内匹配一个字符串,例如:

(i, j, k(1))
^^^^^^^^^^^^

该字符串也可以包含闭括号。如何在不编写解析器的情况下将其与Java中的正则表达式匹配,因为这是我项目的一小部分。谢谢!

编辑:

我想搜索一个字符串块,找到类似 ,或只是 ,并将它们替换为我的 Fortran 翻译应用程序。u(i, j, k)u(i, j, k(1))u(<anything within this paired parens>)__u%array(i, j, k)__u%array(i, j, k(1))


答案 1

正如我所说,与普遍的看法相反(不要相信人们所说的一切),使用正则表达式匹配嵌套括号可能的。

使用它的缺点是您只能达到固定的嵌套级别。对于您希望支持的每个附加级别,您的正则表达式将越来越大。

但不要相信我的话。让我来告诉你。正则表达式:

\([^()]*\)

匹配一个级别。对于最多两个级别,您需要:

\(([^()]*|\([^()]*\))*\)

等等。要继续添加级别,您所要做的就是将中间(第二)部分更改为(在此处检查三个级别)。正如我所说,它会变得越来越大。[^()]*([^()]*|\([^()]*\))*

您的问题:

对于您的情况,两个级别可能就足够了。因此,它的 Java 代码将是:

String fortranCode = "code code u(i, j, k) code code code code u(i, j, k(1)) code code code u(i, j, k(m(2))) should match this last 'u', but it doesnt.";
String regex = "(\\w+)(\\(([^()]*|\\([^()]*\\))*\\))"; // (\w+)(\(([^()]*|\([^()]*\))*\))
System.out.println(fortranCode.replaceAll(regex, "__$1%array$2"));

输入:

code code u(i, j, k) code code code code u(i, j, k(1)) code code code u(i, j, k(m(2))) should match this last 'u', but it doesnt.

输出:

code code __u%array(i, j, k) code code code code __u%array(i, j, k(1)) code code code u(i, j, __k%array(m(2))) should match this last 'u', but it doesnt.

底线:

在一般情况下,解析器会做得更好 - 这就是为什么人们会对此感到如此生气。但对于简单的应用程序,正则表达式几乎就足够了。

注意:一些正则表达式支持嵌套运算符R(Java不支持,PCRE引擎如PHP和Perl支持),它允许您嵌套任意数量的级别。有了它们,你可以做: \(([^()]|(?R))*\).


答案 2

分离您的工作。让正则表达式是:

([a-z]+)\((.*)\)

第一组将包含标识符,第二组包含参数。然后这样进行:

private static final Pattern PATTERN = Pattern.compile("([a-z]+)\\((.*)\\)");

// ...

final Matcher m = Pattern.matcher(input);

if (!m.matches())
    // No match! Deal with it.

// If match, then:

final String identifier = m.group(1);
final String params = m.group(2);

// Test if there is a paren
params.indexOf('(') != -1;

替换为 Fortran 中可以包含的任何标识符。[a-z]+