UTF-8 - ASCII 兼容的多字节
Unicode 编码
描述
The Unicode
字符集使用的是 16
位(双字节)码。最普遍的
Unicode 编码方法( UCS-2)
由一个 16
位双字序列组成。
这样的字符串中包括了的一些如‘\0’或‘/’这样的在文件名中或者是在
C
库函数中具有特殊意义的字符。
另外,如果没有做重大的修正的话,大部分操作
ASCII 码文件的 UNIX
工具不能够正确识别 16
位的字符。因此,
UCS-2 对于 Unicode
的文件名、文本文件、环境变量等等来说并不是一种合适的外部编码方式。
ISO 10646 Universal Character Set (UCS), 是 Unicode
的超集,甚至使用了 31
位编码方式,
另外还有使用 32 编码的
UCS-4
也有同样上述的问题。
UCS-4 而用 UTF-8 对 Unicode
UCS 编码
就不会存在这样的问题。所以,UTF-8
很明显的是在 UNIX
类操作系统下的 Unicode
字符集的解决方案。
属性
UTF-8
编码具有以下优良属性:
- *
- UCS 字符从 0x00000000 到 0x0000007f
(传统的 US-ASCII
字符)简单地编码为字节
0x00 到 0x7f (与 ASCII
码兼容)。
这意味着只包含 7 位 ASCII
字符的文件和字符串在
ASCII 和 UTF-8.
编码方式下是完全一样的。
- *
- 所有大于 0x7f 的 UCS
字符被编码成为多字节序列。该序列全部是由
0x80 到 0fd 的字符组成,
这样就不会有标准 ASCII
字符会
被作为某个字的一个部分这种现象出现,
对于‘\0’和‘\[u2019]这样的特殊字符来说也就不会有问题了。
- *
- 保留了 UCS-4
字典中的字节串的排列顺序。
- *
- 所有 2^32 次方的 UCS
码都能够使用 UTF-8
来进行编码。
- *
- 0xfe 和 0xff 两个字符在 UTF-8
中不会被用到。
- *
- 表示非 ASCII 码的 UCS
多字节串的开始字符总是
0xc0 到 0xfd
之间的字符,并会指出该串的长度。
多字节串的其他字符都是
0x80 到 0xbf 之间的字符。
这使得再同步非常简单,并令编码是无态的,
丢字节现象也不容易发生。
- *
- 用 UTF-8 编码的 UCS
字符可以增加到 6
个字节的长度。而
Unicode 只能增加到 3
个字节长。由于 Linux
只使用 16 位的 Unicode ,
UCS 的子集。所以在 Linux
下, UTF-8
多字节串长度最多不会超过三个字节。
编码方式
下面的字节串用来表示一个字符。用什么串依照该字符在
UCS
编码中的序号来定:
- 0x00000000 - 0x0000007F:
- 0xxxxxxx
- 0x00000080 - 0x000007FF:
- 110xxxxx 10xxxxxx
- 0x00000800 - 0x0000FFFF:
- 1110xxxx 10xxxxxx 10xxxxxx
- 0x00010000 - 0x001FFFFF:
- 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
- 0x00200000 - 0x03FFFFFF:
- 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
- 0x04000000 - 0x7FFFFFFF:
- 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
这里 xxx
的位置二进制位形式的字符编码填入。
只用最短的那个足够表达一个字符编码数的多字节串。
举例说明
Unicode 字符 0xa9 = 1010 1001
(版权所有的符号) 在 UTF-8
中被编码为:
11000010 10101001 = 0xc2 0xa9
字符0x2260 = 0010 0010 0110 0000
(“不等于”符号)被编码为:
11100010 10001001 10100000 = 0xe2 0x89 0xa0
遵循标准
ISO 10646, Unicode 1.1, XPG4, Plan 9.
billpan <billpan@yeah.net>
《中国linux论坛man手册页翻译计划》:
http://cmpp.linuxforum.net
跋
本页面中文版由中文
man 手册页计划提供。
中文 man
手册页计划:https://github.com/man-pages-zh/manpages-zh