描述

The Unicode 字符集使用的是 16 位(双字节)码。最普遍的 Unicode 编码方法( UCS-2) 由一个 16 位双字序列组成。这样的字符串中包括了的一些如‘\0’或‘/’这样的在文件名中或者是在 C 库函数中具有特殊意义的字符。另外,如果没有做重大的修正的话,大部分操作 ASCII 码文件的 UNIX 工具不能够正确识别 16 位的字符。因此, UCS-2 对于 Unicode 的文件名、文本文件、环境变量等等来说并不是一种合适的外部编码方式。 ISO 10646 Universal Character Set (UCS), 是 Unicode 的超集,甚至使用了 31 位编码方式,另外还有使用 32 编码的 UCS-4 也有同样上述的问题。 UCS-4 而用 UTF-8Unicode UCS 编码就不会存在这样的问题。所以,UTF-8 很明显的是在 UNIX 类操作系统下的 Unicode 字符集的解决方案。

属性

UTF-8 编码具有以下优良属性:

*
UCS 字符从 0x00000000 到 0x0000007f (传统的 US-ASCII 字符)简单地编码为字节 0x00 到 0x7f (与 ASCII 码兼容)。这意味着只包含 7 位 ASCII 字符的文件和字符串在 ASCIIUTF-8. 编码方式下是完全一样的。
*
所有大于 0x7f 的 UCS 字符被编码成为多字节序列。该序列全部是由 0x80 到 0fd 的字符组成,这样就不会有标准 ASCII 字符会被作为某个字的一个部分这种现象出现,对于‘\0’和‘’这样的特殊字符来说也就不会有问题了。
*
保留了 UCS-4 字典中的字节串的排列顺序。
*
所有 2^32 次方的 UCS 码都能够使用 UTF-8 来进行编码。
*
0xfe 和 0xff 两个字符在 UTF-8 中不会被用到。
*
表示非 ASCII 码的 UCS 多字节串的开始字符总是 0xc0 到 0xfd 之间的字符,并会指出该串的长度。多字节串的其他字符都是 0x80 到 0xbf 之间的字符。这使得再同步非常简单,并令编码是无态的,丢字节现象也不容易发生。
*
UTF-8 编码的 UCS 字符可以增加到 6 个字节的长度。而 Unicode 只能增加到 3 个字节长。由于 Linux 只使用 16 位的 UnicodeUCS 的子集。所以在 Linux 下, UTF-8 多字节串长度最多不会超过三个字节。

编码方式

下面的字节串用来表示一个字符。用什么串依照该字符在 UCS 编码中的序号来定:

0x00000000 - 0x0000007F:
0xxxxxxx
0x00000080 - 0x000007FF:
110xxxxx 10xxxxxx
0x00000800 - 0x0000FFFF:
1110xxxx 10xxxxxx 10xxxxxx
0x00010000 - 0x001FFFFF:
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
0x00200000 - 0x03FFFFFF:
111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
0x04000000 - 0x7FFFFFFF:
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

这里 xxx 的位置二进制位形式的字符编码填入。只用最短的那个足够表达一个字符编码数的多字节串。

举例说明

Unicode 字符 0xa9 = 1010 1001 (版权所有的符号) 在 UTF-8 中被编码为:

11000010 10101001 = 0xc2 0xa9

字符0x2260 = 0010 0010 0110 0000 (“不等于”符号)被编码为:

11100010 10001001 10100000 = 0xe2 0x89 0xa0 

最新文章

  1. .NET平台开源项目速览(12)哈希算法集合类库HashLib
  2. Thinking in Java——笔记(13)
  3. jQuery 基础(4)jQuery 尺寸
  4. XXOOJL
  5. 专治XP正在启动就蓝屏重启一直循环
  6. django view使用学习记录
  7. JS基础DOM篇之二:DOM级别与节点层次?
  8. Drawable(3)Color State List Resource
  9. NPIV介绍
  10. ionic2 处理android硬件返回按钮
  11. 转载记录一个有效的jetbrains激活码
  12. input只允许输入正整数
  13. 2019.03.01 bzoj2555: SubString(sam+lct)
  14. ckeditor 上传图片解决跨域问题
  15. telnet ip/域名 端口 是否成功
  16. Fiddler 实现手机的抓包
  17. [Sdoi2016]齿轮
  18. Kafka介绍及安装部署
  19. LNMP一键安装包phpMyAdmin无法正常登录,提示:您的Session已过期,请再次登录。
  20. 6个变态的C语言程序

热门文章

  1. OOP三大特性及几大设计原则
  2. 使用source insert 查看Linux内核源码
  3. BiLSTM介绍
  4. 【javascript闭包】转载一篇不错的解释,也有几个大牛的链接
  5. 欧拉路径 && 欧拉回路
  6. 通过lua进行nginx的权限控制
  7. Jenkins使用admin修改安全矩阵的时候报错“admin没有Overall/Read权限”
  8. Java Collection - PriorityQueue 优先队列
  9. python3 投票
  10. Python:验证码识别