在Java中将UTF-8转换为ISO-8859-1 - 如何将其保留为单字节

2022-08-31 14:41:32

我正在尝试将以UTF-8的java编码的字符串转换为ISO-8859-1。例如,在字符串中,“âabcd”中的“â”在ISO-8859-1中表示为E2。在 UTF-8 中,它表示为两个字节。C3 A2 我相信。当我执行 getbytes(编码)然后使用 ISO-8859-1 编码的字节创建一个新字符串时,我得到两个不同的字符。有没有其他方法可以做到这一点,以保持字符相同,即âabcd?


答案 1

如果你正在处理 UTF-16 以外的字符编码,你不应该使用或基元 - 你应该只使用数组或对象。然后,您可以使用java.nio.charset.Charset在编码之间进行转换:java.lang.Stringcharbyte[]ByteBuffer

Charset utf8charset = Charset.forName("UTF-8");
Charset iso88591charset = Charset.forName("ISO-8859-1");

ByteBuffer inputBuffer = ByteBuffer.wrap(new byte[]{(byte)0xC3, (byte)0xA2});

// decode UTF-8
CharBuffer data = utf8charset.decode(inputBuffer);

// encode ISO-8559-1
ByteBuffer outputBuffer = iso88591charset.encode(data);
byte[] outputData = outputBuffer.array();

答案 2
byte[] iso88591Data = theString.getBytes("ISO-8859-1");

将做这个把戏。从您的描述来看,您似乎正在尝试“存储ISO-8859-1字符串”。Java 中的字符串对象始终以 UTF-16 隐式编码。无法更改该编码。

你可以做的是,“虽然是获取构成它的其他一些编码的字节(使用如上所示的方法)。.getBytes()


推荐