转自:https://blog.csdn.net/u011316258/article/details/50450079

python解决文本乱码问题及文本二进制读取后的处理

吲哚乙酸

当文本中含有很多各种各样的字符时,此时读取文件如果还用
fr1 = open("filename","r")
的r模式,遇到ascii码表识别不了的会报错,如:UnicodeEncodeError: ‘gbk’ codec can’t encode character
此时可以用二进制读取文件换成

fr1 = open("filename","rb")
二进制一般都可以顺利的读取,

读取后

r1 = fr1.readline()
是二进制制类型的b’。。。’的,无法对此解析,
所以可用decode( )函数来解码,

r1_to_str = r1.decode('gbk')
或者,gb18030,utf-8,这时就可以解析了

2. 如果这时,不论是,gbk还是gb18030都解析不了的时候,
还是会报错UnicodeEncodeError: ‘gbk’ codec can’t encode character ,
而这时候字符对文本分析可能又没有什么用的时候,我们可以忽略该字符,
可用

r1_to_str = r1.decode('gbk','ignore')
或者’ignore’换成’replace’
便可以将文本转化成字符串了。
————————————————
版权声明:本文为CSDN博主「吲哚乙酸」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/u011316258/article/details/50450079

最新文章

  1. node基础06:回调函数
  2. restClient访问SSL
  3. IOS 改变导航栏返回按钮的标题
  4. 单节点伪分布集群(weekend110)的Hive子项目启动顺序
  5. c++文件流
  6. 【剑指offer】两个队列实现堆栈
  7. ASP.NET Web API消息处理管道:Self Host下的消息处理管道[下篇]
  8. 某次送温暖考试的 c题
  9. 简单实现SSO
  10. Linux安装 centos 7 最小化 安装
  11. 全网最详细的IDEA、Eclipse和MyEclipse之间于Java web项目发布到Tomcat上运行成功的对比事宜【博主强烈推荐】【适合普通的还是Maven方式创建的】(图文详解)
  12. SpringBoot整合Rabbitmq设置消息请求头
  13. 【PAT】B1077 互评成绩计算(20 分)
  14. 吴裕雄 实战PYTHON编程(10)
  15. Jenkins 学习笔记(一)
  16. Java XML SAX 解析注意
  17. Android Viewpager+Fragment实现滑动标签页
  18. Yii设置Cache缓存的方法
  19. MySQL中类型后面的数字含义
  20. Spring Boot框架搭建

热门文章

  1. Jmeter 定时器之同步定时器(Synchronizing Timer)
  2. TCS34725 颜色传感器设备驱动程序
  3. [C#]从两个例子理解async/await
  4. Lyndon Word 与 Lydon 分解
  5. nmap脚本详解
  6. Ubuntu 22.04 运行 Appimage 文件
  7. day07-Spring管理Bean-IOC-05
  8. Docker使用阿里云拉取配置源也无法拉取的镜像-github镜像镜像gcr.io
  9. 案例:用ajax get方法 查询用户列表
  10. Java 进阶P-8.5+P-8.6