说这个问题之前必须的介绍关于编码的在我们这的发展:

首先电脑能识别的最初的语言是二进制 ---010101这种

然后在是我们知道的ASSIC码

再过了就是 gb2312----------->gbk1.0--------->最后是gbk18030

最后国际上为了统一编制了 Unicode  但是Unicode有三个版本Unicode‘UTF——32’, 每个字符都是4个字节,一个字节8bety,但美国人民有点不愿意,随后

改编成了Unicode‘UTF——16’每个字符都是两个字节,最后改编成现在的Unicode“UTF-8”在这里面,英文用的ASSIC码一个字节(美国人民应该很高兴),然后欧洲的一些语言字符是两个字节,一个中文就是三个字节

介绍完历史,接下来就讲讲为么子要encode 和decode:最根本的原因还是各个编码只能上级包容下级,下级想读取上级就会出现乱码(简单的说就是Unicode能识别gbk,而gbk想直接Unicode就会乱码,Unicode是向下包容的)

在Python2里面(估计现在不怎么用的吧): 默认识别是ASCLL码,所以不能识别中文。而现在国内的windows默认支持识别应该是gbk

在python2中的中文想要Windows识别就得通过 声明“#!_*_ coding :UTF-8 _*_ ” 源码格式为UTF-8,这样就可以识别输入的中文,但是python2想要在window上表现出来就必须通过编码为gbk格式才行这里就可以这样:方法一(感觉这方法是个鸡肋,方法二靠谱些):(假定已经声明是UTF-8)                                                                                                                                                  s =‘中文巴拉巴拉 ’

s_to_Unicode=s.decode("Unicode")   将‘中文巴拉巴拉’转为Unicode格式 这时候 再将 ,                                                                                                       s_to_Unicode =s.encode('gbk')    这会儿window就能识别s了print就不会出错了这里要解释两点内容: 为什么要先解码再编码而不直接编码;还有假如encode 和decode后面不写格式会怎样(内容太多我画了个图)

s_to_Unicode=s.decode("Unicode")    但是由于Unicode是向下兼容gbk的所以这里的print(s_to_Unicode)也能被windows是被显示成和s_to_Unicode =s.encode('gbk')一样的中文,但是他们的内部排序和占的内存都不相同不同这里就不深究了;这里补充解释一下为何不见gbk直接解码成utf-8,原因是你省了一步解码 成Unicode的过程,但是电脑不会省,所以说如果直接解码为utf-8会报错 其内部默认的过程是将gbk格式先解码为python2默认的ASCLL码再编码为UTF-8这肯定会乱的撒

方法二:直接声明“#!_*_ coding :gbk _*_ ”:这样print(s)window就能识别了

在python3 里面 :python3的默认文件编码是UTF-8  但是(重点)所有的字符都是Unicode格式,所以 s =‘中文巴拉巴拉 ’  可以被windows识别,如果你非要编码为gbk格式 这里输出的将不会是 ‘中文巴拉巴拉 ’,因为在python3里面特殊字符(即中文)编码会将其转换为另一种格式即byte字节类型,而byte类型只能识别英文等非特殊字符,所以在s =‘ i love 中文巴拉巴拉 ’编码为gbk时就能print(s)出 i love 中文巴拉巴拉  这里得到的byte类型是以gbk编码的byte类型,要转回Unicode就得解码gbk,与byte无关。python3在解码时会把byte类型转换成字符串

补充:byte类型相当于[0--255]之间的纯数字类型    在文件处理时:不同机器之间进行传输就必须用到这种类型

最新文章

  1. PHP中instanceof关键字
  2. tomcat7 ajax请求服务中文乱码
  3. C++指针之防不胜防
  4. 20160201.CCPP体系详解(0011天)
  5. 【转】M0,M1,M2,M3,M4基本概念
  6. 修改MySQL的递增的起始值
  7. nginx之依据IP做限制
  8. 【转】android 电池(一):锂电池基本原理篇
  9. android 自己定义通知栏遇到的问题
  10. Vulkan Tutorial 开发环境搭建之Windows
  11. 【Java】 剑指offer(58-1) 翻转单词顺序
  12. Newcoder Metropolis(多源最短路 + Dijkstra堆优化)题解
  13. 查看加密的vba代码
  14. mysql decimal
  15. rpm 软件包管理
  16. ext3日志模式
  17. 顺序线性表之大整数求和C++实现
  18. eclipse/STS 切换目录视图
  19. 【BZOJ3958】[WF2011]Mummy Madness 二分+扫描线+线段树
  20. K-mean聚类算法汇聚有用信息——学习笔记

热门文章

  1. eclipse中如何配置maven
  2. X-Admin&ABP框架开发-代码生成器
  3. Apache Derby-01介绍DERBY
  4. codeforces -1214 E
  5. 从零开始のcocos2dx生活(六)EventDispatcher
  6. IDEA 连接Docker 并部署
  7. IDEA模板快捷键
  8. ThreadLocal源码阅读
  9. SpringBoot 总结篇
  10. Redis内存碎片清理