在Python 3中将字符串转换为字节的最佳方法？

string python character-encoding python-3.x

2022-09-05 00:57:26

TypeError： 'str' 不支持缓冲区接口，建议使用两种可能的方法将字符串转换为字节：

b = bytes(mystring, 'utf-8')

b = mystring.encode('utf-8')

哪种方法更Pythonic？

答案 1

如果你看一下的文档，它会指向 bytearray：bytes

bytearray（[source[， encoding[， errors]]]）

返回新的字节数组。字节数组类型是介于 0 <= x < 256 之间的整数的可变序列。它具有可变序列的大多数常用方法（如可变序列类型中所述）以及字节类型具有的大多数方法，请参阅字节和字节数组方法。

可选的 source 参数可用于以几种不同的方式初始化数组：

如果它是一个字符串，您还必须提供编码（以及可选的错误）参数;然后，bytearray（）使用 str.encode（）将字符串转换为字节。

如果它是整数，则数组将具有该大小，并将使用空字节进行初始化。

如果它是符合缓冲区接口的对象，则将使用该对象的只读缓冲区来初始化 bytes 数组。

如果它是可迭代的，则它必须是 0 <= x < 256 范围内的整数的可迭代对象，这些整数用作数组的初始内容。

如果没有参数，则创建大小为 0 的数组。

因此，可以做的不仅仅是对字符串进行编码。Pythonic允许您使用任何类型的有意义的源参数来调用构造函数。bytes

对于字符串进行编码，我认为这比使用构造函数更像Pythonic，因为它是最自我记录的 - “获取此字符串并使用此编码对其进行编码”比 - 当您使用构造函数时没有显式动词更清晰。some_string.encode(encoding)bytes(some_string, encoding)

我检查了Python源代码。如果将 unicode 字符串传递给使用 CPython，它将调用 PyUnicode_AsEncodedString，这是 ;所以如果你打电话给自己，你只是跳过了一定程度的间接联系。bytesencodeencode

另外，请参阅Serdalis的评论-也更Pythonic，因为它的反比和对称性很好。unicode_string.encode(encoding)byte_string.decode(encoding)

答案 2

这比想象的要容易：

my_str = "hello world"
my_str_as_bytes = str.encode(my_str)
print(type(my_str_as_bytes)) # ensure it is byte representation
my_decoded_str = my_str_as_bytes.decode()
print(type(my_decoded_str)) # ensure it is string representation

您可以通过打印类型进行验证。请参阅下面的输出。

<class 'bytes'>
<class 'str'>