18.1.6. email.charset:表示字符集

此模块提供了一个Charset类,用于表示电子邮件消息中的字符集和字符集转换,以及字符集注册表和用于操纵此注册表的几种便捷方法。 Charset的实例在email包中的其他几个模块中使用。

email.charset模块导入此类。

版本 2.2.2 中的新Function。

此类提供有关特定字符集对电子邮件的要求的信息。如果适用的编解码器可用,它还提供了方便的例程,可在字符集之间进行转换。给定一个字符集,它将尽力提供有关如何以符合 RFC 的方式在电子邮件中使用该字符集的信息。

在电子邮件标题或正文中使用时,某些字符集必须使用 quoted-printable 或 base64 编码。某些字符集必须完全转换,并且不允许在电子邮件中使用。

可选的* input_charset 如下所述;它总是被强制为小写。别名标准化后,它还用作对字符集注册表的查找,以查找要用于字符集的 Headers 编码,主体编码和输出转换编解码器。例如,如果 input_charset iso-8859-1,则标题和正文将使用 quoted-printable 进行编码,并且不需要输出转换编解码器。如果 input_charset *为euc-jp,则 Headers 将使用 base64 进行编码,不对正文进行编码,但是输出文本将从euc-jp字符集转换为iso-2022-jp字符集。

Charset个实例具有以下数据属性:

Charset个实例还具有以下方法:

根据所使用的编码,它可以是字符串quoted-printablebase64,也可以是函数,在这种情况下,应使用单个参数(已编码的 Message 对象)调用该函数。然后,该函数应将* Content-Transfer-Encoding *Headers 本身设置为适当的值。

如果* body_encoding QP则返回字符串quoted-printable,如果 body_encoding *为BASE64则返回字符串base64,否则返回字符串7bit

使用* input_codec *try将字符串转换为 Unicode,因此可以在字符边界上安全分割(即使对于多字节字符也是如此)。

如果不知道如何使用* input_charset s *转换为 Unicode,则按原样返回字符串。

无法转换为 Unicode 的字符将替换为 Unicode 替换字符'U+FFFD'

此方法使用适当的编解码器try将字符串从 Unicode 转换回编码格式。如果不是 Unicode,或者无法从 Unicode 转换,则原样返回字符串。

无法从 Unicode 转换的字符将被替换为适当的字符(通常为'?')。

如果* to_output True(默认值),则使用 output_codec 转换为编码格式。如果 to_output False,则使用 input_codec *。

如果不是None,则为* output_charset 属性;否则为 input_charset *。

如果* convert *为True,则字符串将自动从 Importing 字符集转换为输出字符集。这对于行长度有问题的多字节字符集没有用(多字节字符必须在一个字符上分割,而不是在字节边界上分割)。使用更高级别的Header类来处理这些问题(请参见email.header)。 * convert *默认为False

编码类型(base64 或带引号的可打印格式)将基于* header_encoding *属性。

如果* convert *为True(默认值),则字符串将自动从 Importing 字符集转换为输出字符集。与header_encode()不同,电子邮件正文中的字节边界和多字节字符集没有问题,因此通常很安全。

编码类型(base64 或带引号的可打印格式)将基于* body_encoding *属性。

Charset类还提供了许多支持标准操作和内置函数的方法。

email.charset模块还提供以下Function,用于将新条目添加到全局字符集,别名和编解码器注册表中:

可选的* header_enc body_enc 要么是_表示带引号的可打印字符,_表示 base64 编码,否则是Charset.SHORTEST表示最短的带引号的可打印字符或 base64 编码,或者是None表示无编码。 SHORTEST仅对 header_enc *有效。默认为None(不编码)。

可选的* output_charset *是输出应位于的字符集。调用方法Charset.convert()时,转换将从 Importing 字符集到 Unicode,再到输出字符集。默认设置是输出与 Importing 相同的字符集。

全局字符集注册表保存在模块全局字典CHARSETS中。

全局字符集别名注册表保存在模块全局字典ALIASES中。

首页