UTF8 编码问题 - 有好的例子

php mysql utf-8 character-encoding

2022-08-30 15:40:51

我有以下字符编码问题，不知何故，我设法将具有不同字符编码的数据保存到我的数据库（UTF8）下面的代码和输出显示了2个示例字符串以及它们的输出方式。其中1个需要更改为UTF8，另一个已经是。

我如何/应该检查我是否应该对字符串进行编码？例如，我需要正确输出每个字符串，那么我如何检查它是否已经是utf8或是否需要转换？

我正在使用PHP 5.2，mysql myisam表：

CREATE TABLE IF NOT EXISTS `entities` (
  ....
  `title` varchar(255) NOT NULL
  ....
) ENGINE=MyISAM DEFAULT CHARSET=utf8;

<?php
$text = $entity['Entity']['title'];
echo 'Original : ', $text."<br />";
echo 'UTF8 Encode : ', utf8_encode($text)."<br />";
echo 'UTF8 Decode : ', utf8_decode($text)."<br />";
echo 'TRANSLIT : ', iconv("ISO-8859-1", "UTF-8//TRANSLIT", $text)."<br />";
echo 'IGNORE TRANSLIT : ', iconv("ISO-8859-1", "UTF-8//IGNORE//TRANSLIT", $text)."<br />";
echo 'IGNORE   : ', iconv("ISO-8859-1", "UTF-8//IGNORE", $text)."<br />";
echo 'Plain    : ', iconv("ISO-8859-1", "UTF-8", $text)."<br />";
?>

产出1：

Original : France Télécom
UTF8 Encode : France TÃ©lÃ©com
UTF8 Decode : France T�l�com
TRANSLIT : France TÃ©lÃ©com
IGNORE TRANSLIT : France TÃ©lÃ©com
IGNORE : France TÃ©lÃ©com
Plain : France TÃ©lÃ©com

产出2：###

Original : Cond� Nast Publications
UTF8 Encode : Condé Nast Publications
UTF8 Decode : Cond?ast Publications
TRANSLIT : Condé Nast Publications
IGNORE TRANSLIT : Condé Nast Publications
IGNORE : Condé Nast Publications
Plain : Condé Nast Publications

感谢您抽出宝贵时间。字符编码，我相处得不是很好！

更新：

echo strlen($string)."|".strlen(utf8_encode($string))."|";
echo (strlen($string)!==strlen(utf8_encode($string))) ? $string : utf8_encode($string);
echo "<br />";
echo strlen($string)."|".strlen(utf8_decode($string))."|";
echo (strlen($string)!==strlen(utf8_decode($string))) ? $string : utf8_decode($string);
echo "<br />";

23|24|Cond� Nast Publications
23|21|Cond� Nast Publications

16|20|France Télécom
16|14|France Télécom

答案 1

这可能是 mb_detect_encoding（） 函数的工作。

根据我对它的有限经验，当用作通用的“编码嗅探器”时，它不是100%可靠的 - 它会检查某些字符和字节值的存在以进行有根据的猜测 - 但是在这个狭窄的情况下（它需要区分UTF-8和ISO-8859-1），它应该可以工作。

<?php
$text = $entity['Entity']['title'];

echo 'Original : ', $text."<br />";
$enc = mb_detect_encoding($text, "UTF-8,ISO-8859-1");

echo 'Detected encoding '.$enc."<br />";

echo 'Fixed result: '.iconv($enc, "UTF-8", $text)."<br />";

?>

对于不包含特殊字符的字符串，您可能会得到不正确的结果，但这不是问题。

答案 2

我制作了一个解决所有这些问题的函数。它被称为编码：：toUTF8（）。

<?php
$text = $entity['Entity']['title'];
echo 'Original : ', $text."<br />";
echo 'Encoding::toUTF8 : ', Encoding::toUTF8($text)."<br />";
?>

输出：

Original : France Télécom
Encoding::toUTF8 : France Télécom

Original : Cond� Nast Publications
Encoding::toUTF8 : Condé Nast Publications

您不需要知道字符串的编码是什么，只要您知道它是在 Latin1 （iso 8859-1）、Windows-1252 或 UTF8 上。字符串也可以混合使用它们。

编码：：toUTF8（）会将所有内容转换为 UTF8。

我这样做是因为一个服务给了我一个数据馈送，所有数据都搞砸了，将UTF8和Latin1混合在同一字符串中。

用法：

$utf8_string = Encoding::toUTF8($utf8_or_latin1_or_mixed_string);

$latin1_string = Encoding::toLatin1($utf8_or_latin1_or_mixed_string);

下载：

http://dl.dropbox.com/u/186012/PHP/forceUTF8.zip

我包含了另一个函数，Encoding：：fixUFT8（），它将修复每个看起来乱码的UTF8字符串。

用法：

$utf8_string = Encoding::fixUTF8($garbled_utf8_string);

例子：

echo Encoding::fixUTF8("FÃ©dÃ©ration Camerounaise de Football");
echo Encoding::fixUTF8("FÃÂ©dÃÂ©ration Camerounaise de Football");
echo Encoding::fixUTF8("FÃÂÃÂ©dÃÂÃÂ©ration Camerounaise de Football");
echo Encoding::fixUTF8("FÃÂ©dération Camerounaise de Football");

将输出：

Fédération Camerounaise de Football
Fédération Camerounaise de Football
Fédération Camerounaise de Football
Fédération Camerounaise de Football