Terminology
字符是具有语义值的最小文本单元。
字符集是可能由多种语言使用的字符集合。例如,英语和大多数欧洲语言使用拉丁字符集,而希腊字符仅使用希腊字符集。
编码字符集是一个字符集,其中为每个字符分配了唯一的编号。
代码点是可以在编码字符集中使用的值。代码点是 32 位int
数据类型,其中低 21 位表示有效代码点值,高 11 位为 0.
Unicode 代码单元是 16 位char
值。例如,假设一个String
包含字母“ abc”,后跟 Deseret LONG I,它由两个char
值表示。该字符串 包含四个字符,四个代码点,但五个代码单元。
要用 Unicode 表示字符,十六进制值以字符串U 为前缀。 Unicode 标准的有效代码点范围是 U 0000 到 U 10FFFF(含)。拉丁字符 A 的代码点值为 U0041.代表欧元的字符€具有代码点值 U 20AC。 Deseret 字母表中的第一个字母 LONG I 的代码点值为 U 10400.
下表显示了几个字符的代码点值:
Character | Unicode 代码点 | Glyph |
---|---|---|
Latin A | U+0041 | |
拉丁夏普 S | U+00DF | |
汉为东 | U+6771 | |
Deseret,我 Long | U+10400 |
如前所述,在 U 10000 到 U 10FFFF 范围内的字符称为补充字符。从 U 0000 到 U FFFF 的字符集有时被称为基本多语言平面(BMP)。
可以在More Information页上列出的“ Unicode 术语表”中找到更多术语。