python与unicode
2024-10-15 01:15:42
Unicode是一种在计算机上使用的字符编码,是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。Unicode用数字0-0x10FFFF来映射这些字符,最多可以容纳1114112个字符,或者说有1114112个码位。码位就是可以分配给字符的数字。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。
Python里面默认所有字面上的字符串都用ASCII编码,可以通过在字符串前面加一个'u’ 前缀的方式声明Unicode字符串,这个'u' 前缀告诉Python后面的字符串要编成Unicode字符串。目前学习多用一些unicode字符串的encode()和decode()。下面举一个简单例子:
查看某些字词的Unicode:
Ustr=(u'世界', 'gb2312')
print Ustr
写文件时,可将Unicode格式的Ustr用utf-8编码,再写入文件:
FILE = 'test.txt'
data = Ustr.encode('utf-8')
f = open(FILE,'w')
f.write(data)
f.close()
简单的讲,Hstr='世界',需要解码,Hstr.decode('cp936');Ustr=u'世界',需要编码,Ustr.encode('utf-8')。
最新文章
- Introduction of python
- ionic2安装时报错
- sprintf()函数基本用法
- SQL Server服务器名称与默认实例名不一致的修复方法
- 如何获取并分析L2CAP包
- arcgis中注记的高级处理
- Codeforces 337D Book of evil
- 【原】Redis-LRU缓存
- 【转】基于RMAN实现坏块介质恢复(blockrecover)
- HTTP请求和响应详解
- CURL请求接口
- raphael入门到精通---入门篇之总览
- 端口扫描之王——nmap入门精讲(转)
- tinkphp5.0 traits 的引入
- zabbix 安装配置介绍
- 一张图搞定OAuth2.0
- @DisallowConcurrentExecution 注解的作用 【定时器执行完当前任务才开启下一个线程的方式】
- win10图片打开方式里没有默认照片查看器的解决方法
- python 函数式编程学习笔记
- UIKit 框架之UICollectionView