区分 ISBN-10 和 ISBN-13 的正则表达式

2022-08-30 19:44:46

我有一个If-else语句,它会检查字符串以查看是否存在ISBN-10或ISBN-13(书籍ID)。

我面临的问题是在ISBN-13检查之前发生的ISBN-10检查,ISBN-10检查将匹配任何具有10个字符或更多字符的内容,因此可能会将ISBN-13误认为ISBN-10。

这是代码...

$str = "ISBN:9780113411436";

if(preg_match("/\d{9}(?:\d|X)/", $str, $matches)){
   echo "ISBN-10 FOUND\n";  
   //isbn returned will be 9780113411
   return 0;
}

else if(preg_match("/\d{12}(?:\d|X)/", $str, $matches)){
   echo "ISBN-13 FOUND\n";
   //isbn returned will be 9780113411436
   return 1;
}

如何确保避免此问题?


答案 1

您实际上只需要一个正则表达式。然后进行更有效的检查,以查看哪一个匹配。以下内容将匹配字符串中带或不带连字符的 ISBN-10 和 ISBN-13 值,并可选择以字符串 或 开头。strlen()ISBN:ISBN:(space)ISBN(space)

查找 ISBN :

function findIsbn($str)
{
    $regex = '/\b(?:ISBN(?:: ?| ))?((?:97[89])?\d{9}[\dx])\b/i';

    if (preg_match($regex, str_replace('-', '', $str), $matches)) {
        return (10 === strlen($matches[1]))
            ? 1   // ISBN-10
            : 2;  // ISBN-13
    }
    return false; // No valid ISBN found
}

var_dump(findIsbn('ISBN:0-306-40615-2'));     // return 1
var_dump(findIsbn('0-306-40615-2'));          // return 1
var_dump(findIsbn('ISBN:0306406152'));        // return 1
var_dump(findIsbn('0306406152'));             // return 1
var_dump(findIsbn('ISBN:979-1-090-63607-1')); // return 2
var_dump(findIsbn('979-1-090-63607-1'));      // return 2
var_dump(findIsbn('ISBN:9791090636071'));     // return 2
var_dump(findIsbn('9791090636071'));          // return 2
var_dump(findIsbn('ISBN:97811'));             // return false

这将搜索提供的字符串,以查看它是否包含可能的 ISBN-10 值(返回)或 ISBN-13 值(返回)。如果没有,它将返回。12false

请参阅上面的演示


验证 ISBN :

为了严格验证,ISBN的维基百科文章具有一些针对ISBN-10和ISBN-13的PHP验证函数。以下是复制,整理和修改的示例,以针对上述函数的略微修改版本使用。

将返回块更改为:

    return (10 === strlen($matches[1]))
        ? isValidIsbn10($matches[1])  // ISBN-10
        : isValidIsbn13($matches[1]); // ISBN-13

验证 ISBN-10:

function isValidIsbn10($isbn)
{
    $check = 0;

    for ($i = 0; $i < 10; $i++) {
        if ('x' === strtolower($isbn[$i])) {
            $check += 10 * (10 - $i);
        } elseif (is_numeric($isbn[$i])) {
            $check += (int)$isbn[$i] * (10 - $i);
        } else {
            return false;
        }
    }

    return (0 === ($check % 11)) ? 1 : false;
}

验证 ISBN-13:

function isValidIsbn13($isbn)
{
    $check = 0;

    for ($i = 0; $i < 13; $i += 2) {
        $check += (int)$isbn[$i];
    }

    for ($i = 1; $i < 12; $i += 2) {
        $check += 3 * $isbn[$i];
    }

    return (0 === ($check % 10)) ? 2 : false;
}

请参阅上面的演示


答案 2

使用 和 来匹配字符串的开头和结尾。通过使用字符串分隔符,测试 10 位或 13 位代码的顺序将无关紧要。^$

10 位数字

/^ISBN:(\d{9}(?:\d|X))$/

13 位数字

/^ISBN:(\d{12}(?:\d|X))$/

注意:根据 http://en.wikipedia.org/wiki/International_Standard_Book_Number 的说法,似乎ISBN也可以在其中具有。但根据您使用的,看起来您在检查10或13位数字之前已经删除了连字符。-$str

附加说明:由于 ISBN 的最后一个数字用作前一个数字的校验和,因此正则表达式本身无法验证 ISBN 是否有效。它只能检查10或13位格式。


$isbns = array(
  'ISBN:1234567890',       // 10-digit
  'ISBN:123456789X',       // 10-digit ending in X
  'ISBN:1234567890123',    // 13-digit
  'ISBN:123456789012X',    // 13-digit ending in X
  'ISBN:1234'              // invalid
);

function get_isbn($str) {
   if (preg_match('/^ISBN:(\d{9}(?:\d|X))$/', $str, $matches)) {
      echo "found 10-digit ISBN\n";
      return $matches[1];
   }
   elseif (preg_match('/^ISBN:(\d{12}(?:\d|X))$/', $str, $matches)) {
      echo "found 13-digit ISBN\n";
      return $matches[1];
   }
   else {
      echo "invalid ISBN\n";
      return null;
   }
}

foreach ($isbns as $str) {
   $isbn = get_isbn($str);
   echo $isbn."\n\n";
}

输出

found 10-digit ISBN
1234567890

found 10-digit ISBN
123456789X

found 13-digit ISBN
1234567890123

found 13-digit ISBN
123456789012X

invalid ISBN

推荐