Terminology

字符是具有语义值的最小文本单元。

字符集是可能由多种语言使用的字符集合。例如,英语和大多数欧洲语言使用拉丁字符集,而希腊字符仅使用希腊字符集。

编码字符集是一个字符集,其中为每个字符分配了唯一的编号。

代码点是可以在编码字符集中使用的值。代码点是 32 位int数据类型,其中低 21 位表示有效代码点值,高 11 位为 0.

Unicode 代码单元是 16 位char值。例如,假设一个String包含字母“ abc”,后跟 Deseret LONG I,它由两个char值表示。该字符串 包含四个字符,四个代码点,但五个代码单元。

要用 Unicode 表示字符,十六进制值以字符串U 为前缀。 Unicode 标准的有效代码点范围是 U 0000 到 U 10FFFF(含)。拉丁字符 A 的代码点值为 U0041.代表欧元的字符€具有代码点值 U 20AC。 Deseret 字母表中的第一个字母 LONG I 的代码点值为 U 10400.

下表显示了几个字符的代码点值:

CharacterUnicode 代码点Glyph
Latin AU+0041拉丁字符 A
拉丁夏普 SU+00DF拉丁小写字母 Sharp S
汉为东U+6771东,东或东的汉字
Deseret,我 LongU+10400Deseret 大写字母 I

如前所述,在 U 10000 到 U 10FFFF 范围内的字符称为补充字符。从 U 0000 到 U FFFF 的字符集有时被称为基本多语言平面(BMP)

可以在More Information页上列出的“ Unicode 术语表”中找到更多术语。