1,异常: 'ascii' codec can't encode characters

字符集的问题,在文件前加两句话:
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

2,unicode中的‘\xa0’字符在转换成gbk编码时会出现问题,gbk无法转换'\xa0'字符。

所以,在转换的时候必需进行一些前置动作:

将'\xa0‘替换成u' '空格。

3

 #! /usr/bin/env python
#coding=utf-8
s=raw_input()
print s,type(s),len(s)
s=s.decode("gbk")
print s,type(s),len(s)
s=s.encode("utf-8")
print s,type(s),len(s)
s="中国"
print s,type(s),len(s)
 中国
中国 <type 'str'> 4
中国 <type 'unicode'> 2
中国 <type 'str'> 6
中国 <type 'str'> 6

raw_input读入是gbk编码的,汉字和字母都是

4正则匹配language

#get each language parts:
findPart(u"[\u4e00-\u9fa5]+", usample, "unicode chinese")
findPart(u"[\uac00-\ud7ff]+", usample, "unicode korean")
findPart(u"[\u30a0-\u30ff]+", usample, "unicode japanese katakana")
findPart(u"[\u3040-\u309f]+", usample, "unicode japanese hiragana")
findPart(u"[\u3000-\u303f\ufb00-\ufffd]+", usample, "unicode cjk Punctuation")

最新文章

  1. 纯css实现照片墙3D效果
  2. Android 手机卫士11--窗体弹出PopupWindow
  3. Linux启动Apache支持.htaccess伪静态文件方法
  4. 利用redis写webshell
  5. java 语法错误 (操作符丢失) 在查询表达式
  6. 【英语】Bingo口语笔记(5) - 英式和美式英语的发音区别
  7. int21 h
  8. IIS启用GZip压缩
  9. wifi驱动总结(2)
  10. Vue框架是什么,有什么特点,怎么用
  11. 关于第二次阅读作业中&quot;银弹&quot;“大泥球”等的个人理解
  12. python实现单链表的翻转
  13. 《Linux就是这个范儿》
  14. ping命令和telnet命令
  15. vue elementui form表单验证
  16. 将Vue插件发布到npm的完整记录
  17. JournalNode的作用
  18. Linux下使用ping出现destination is unreachable的问题可能性
  19. python装饰器中functools.wraps的作用详解
  20. JavaScript js调用堆栈(二)

热门文章

  1. ipv4配置
  2. Centos7和Centos6防火墙开放端口配置方法(避坑教学)
  3. hadoop伪分布式集群的搭建
  4. 最好用的远程连接工具TeamviWer13安装教程(Win10环境)
  5. docker exec小脚本
  6. Hibernate命名策略及配置
  7. 【转】Unity3D 场景切换与持久化简单数据储存(PlayerPrefs类)
  8. 为不是函数的对象 'dbo.xxxx' 提供了参数。如果这些参数要作为表提示,则需要使用 WITH 关键字
  9. layer 体验
  10. 【bzoj3280】小R的烦恼 费用流