在Python 3中将字符串转换为字节的最佳方法?

TypeError: 'str' 不支持缓冲区接口,建议使用两种可能的方法将字符串转换为字节:

b = bytes(mystring, 'utf-8')

b = mystring.encode('utf-8')

哪种方法更Pythonic?


答案 1

如果你看一下 的文档,它会指向 bytearraybytes

bytearray([source[, encoding[, errors]]])

返回新的字节数组。字节数组类型是介于 0 <= x < 256 之间的整数的可变序列。它具有可变序列的大多数常用方法(如可变序列类型中所述)以及字节类型具有的大多数方法,请参阅字节和字节数组方法。

可选的 source 参数可用于以几种不同的方式初始化数组:

如果它是一个字符串,您还必须提供编码(以及可选的错误)参数;然后,bytearray() 使用 str.encode() 将字符串转换为字节。

如果它是整数,则数组将具有该大小,并将使用空字节进行初始化。

如果它是符合缓冲区接口的对象,则将使用该对象的只读缓冲区来初始化 bytes 数组。

如果它是可迭代的,则它必须是 0 <= x < 256 范围内的整数的可迭代对象,这些整数用作数组的初始内容。

如果没有参数,则创建大小为 0 的数组。

因此,可以做的不仅仅是对字符串进行编码。Pythonic允许您使用任何类型的有意义的源参数来调用构造函数。bytes

对于字符串进行编码,我认为这比使用构造函数更像Pythonic,因为它是最自我记录的 - “获取此字符串并使用此编码对其进行编码”比 - 当您使用构造函数时没有显式动词更清晰。some_string.encode(encoding)bytes(some_string, encoding)

我检查了Python源代码。如果将 unicode 字符串传递给使用 CPython,它将调用 PyUnicode_AsEncodedString,这是 ;所以如果你打电话给自己,你只是跳过了一定程度的间接联系。bytesencodeencode

另外,请参阅Serdalis的评论-也更Pythonic,因为它的反比和对称性很好。unicode_string.encode(encoding)byte_string.decode(encoding)


答案 2

这比想象的要容易:

my_str = "hello world"
my_str_as_bytes = str.encode(my_str)
print(type(my_str_as_bytes)) # ensure it is byte representation
my_decoded_str = my_str_as_bytes.decode()
print(type(my_decoded_str)) # ensure it is string representation

您可以通过打印类型进行验证。请参阅下面的输出。

<class 'bytes'>
<class 'str'>