在引号外的逗号上拆分

2022-08-31 13:45:05

我的程序从文件中读取一行。此行包含逗号分隔的文本,例如:

123,test,444,"don't split, this",more test,1

我希望拆分的结果是这样的:

123
test
444
"don't split, this"
more test
1

如果我使用 ,我会得到这个:String.split(",")

123
test
444
"don't split
 this"
more test
1

换句话说:子字符串中的逗号不是分隔符。如何处理这个问题?"don't split, this"


答案 1

你可以试试这个正则表达式:

str.split(",(?=(?:[^\"]*\"[^\"]*\")*[^\"]*$)");

这会拆分字符串,后跟偶数个双引号。换句话说,它在双引号外的逗号上拆分。只要您在字符串中有平衡的引号,这将起作用。,

解释:

,           // Split on comma
(?=         // Followed by
   (?:      // Start a non-capture group
     [^"]*  // 0 or more non-quote characters
     "      // 1 quote
     [^"]*  // 0 or more non-quote characters
     "      // 1 quote
   )*       // 0 or more repetition of non-capture group (multiple of 2 quotes will be even)
   [^"]*    // Finally 0 or more non-quotes
   $        // Till the end  (This is necessary, else every comma will satisfy the condition)
)

您甚至可以在代码中键入类似内容,将修饰符与正则表达式结合使用。修饰符会忽略正则表达式中的任何空格,因此可以更轻松地读取分成多行的正则表达式,如下所示:(?x)

String[] arr = str.split("(?x)   " + 
                     ",          " +   // Split on comma
                     "(?=        " +   // Followed by
                     "  (?:      " +   // Start a non-capture group
                     "    [^\"]* " +   // 0 or more non-quote characters
                     "    \"     " +   // 1 quote
                     "    [^\"]* " +   // 0 or more non-quote characters
                     "    \"     " +   // 1 quote
                     "  )*       " +   // 0 or more repetition of non-capture group (multiple of 2 quotes will be even)
                     "  [^\"]*   " +   // Finally 0 or more non-quotes
                     "  $        " +   // Till the end  (This is necessary, else every comma will satisfy the condition)
                     ")          "     // End look-ahead
                         );

答案 2

为什么在可以匹配时拆分?

复活这个问题,因为出于某种原因,没有提到简单的解决方案。这是我们精美紧凑的正则表达式:

"[^"]*"|[^,]+

这将匹配所有所需的片段(请参阅演示)。

解释

  • 与 ,我们匹配完成"[^"]*""double-quoted strings"
  • |
  • 我们匹配任何不是逗号的字符。[^,]+

一种可能的改进是改进交替的字符串端,以允许带引号的字符串包含转义引号。