Unicode
- Unicode *是一种计算行业标准,旨在对全世界书面语言中使用的字符进行一致且唯一的编码。 Unicode 标准使用十六进制表示字符。例如,值 0x0041 代表拉丁字符 A。Unicode 标准最初是使用 16 位设计的,以便对字符进行编码,因为主要计算机是 16 位 PC。
创建 Java 语言规范时,将接受 Unicode 标准,并将char
Primitives 定义为 16 位数据类型,其字符的十六进制范围为 0x0000 至 0xFFFF。
因为 16 位编码支持 216(65,536)个字符,不足以定义全世界使用的所有字符,所以 Unicode 标准已扩展为 0x10FFFF,它支持超过一百万个字符。 Java 编程语言中字符的定义不能从 16 位更改为 32 位,而不会导致数百万个 Java 应用程序无法正常运行。为了更正定义,开发了一种方案来处理无法以 16 位编码的字符。
值在 16 位范围之外并且在 0x10000 到 0x10FFFF 范围内的字符称为补充字符,并定义为一对char
值。
本课包括以下部分:
-
Terminology –说明了代码点和其他术语。
-
替代字符作为替代 – 16 位代理用于实现补充字符,这些补充字符不能实现为单个原始
char
数据类型。 -
字符和字符串API –
Character
,String
和相关类的相关 API 的列表。 -
Sample Usage –提供了一些有用的代码段。
-
Design Considerations –请牢记设计注意事项,以确保您的应用程序可以与任何语言脚本一起使用。
-
More Information –提供了更多资源列表。