Unicode

  • Unicode *是一种计算行业标准,旨在对全世界书面语言中使用的字符进行一致且唯一的编码。 Unicode 标准使用十六进制表示字符。例如,值 0x0041 代表拉丁字符 A。Unicode 标准最初是使用 16 位设计的,以便对字符进行编码,因为主要计算机是 16 位 PC。

创建 Java 语言规范时,将接受 Unicode 标准,并将charPrimitives 定义为 16 位数据类型,其字符的十六进制范围为 0x0000 至 0xFFFF。

因为 16 位编码支持 216(65,536)个字符,不足以定义全世界使用的所有字符,所以 Unicode 标准已扩展为 0x10FFFF,它支持超过一百万个字符。 Java 编程语言中字符的定义不能从 16 位更改为 32 位,而不会导致数百万个 Java 应用程序无法正常运行。为了更正定义,开发了一种方案来处理无法以 16 位编码的字符。

值在 16 位范围之外并且在 0x10000 到 0x10FFFF 范围内的字符称为补充字符,并定义为一对char值。

本课包括以下部分: