python编程笔记--字符编码

ASCII码、Unicode、utf-8

ASCII（American Standard Code for Information Interchange，美国标准信息交换代码）是基于拉丁字母的一套电脑编码系统，主要用于显示现代英语和其他西欧语言，其最多只能用8位来表示（一个字节），即：2**8 = 256-1，所以，ASCII码最多只能表示255个符号。

Unicode（统一码、万国码、单一码）是一种在计算机上使用的字符编码。Unicode是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，规定虽有的字符和符号最少由16位来表示（2个字节），即：2 **16 = 65536，
注：此处说的的是最少2个字节，可能更多

Unicode的特点：

直接支持全球所有语言，每个国家都可以不用再使用自己之前的旧编码了，用unicode就可以了。(就跟英语是全球统一语言一样)

unicode包含了跟全球所有国家编码的映射关系

使用unicode表示一个字符，太浪费空间

UTF-8，是对Unicode编码的压缩和优化，他不再使用最少使用2个字节，而是将所有的字符和符号进行分类：使用1、2、3、4个字节表示所有字符；优先使用1个字符、无法满足则使增加一个字节，最多4个字节。英文占1个字节、欧洲语系占2个、东亚占3个，其它及特殊字符占4个。总之，UTF是为unicode编码设计的一种在存储和传输时节省空间的编码方案。

各个字符编码：

ASCII 占1个字节，只支持英文
GB2312 占2个字节，支持6700+汉字
GBK GB2312的升级版，支持21000+汉字
Shift-JIS 日本字符
ks_c_5601-1987 韩国编码
TIS-620 泰国编码
Unicode 2-4字节已经收录136690个字符，并还在一直不断扩张中...

python3中字符编码：

　　 py3有两种数据类型：str和bytes； str类型存unicode数据，bytse类型存bytes数据（注：无论以什么编码在内存里显示字符，存到硬盘上都是2进制）
　　py2默认ASCII码，py3默认的utf8
　　在py3中encode,在转码的同时还会把string 变成bytes类型，decode在解码的同时还会把bytes变回string

python3 执行代码的过程：

解释器找到代码文件，把代码字符串按文件头定义的编码加载到内存，转成unicode
把代码字符串按照语法规则进行解释，
所有的变量字符都会以unicode编码声明

常见编码错误的原因有：

Python解释器的默认编码
Python源文件文件编码
Terminal使用的编码
操作系统的语言设置

巴特西