【转载】python解决文本乱码问题及文本二进制读取后的处理
转自:https://blog.csdn.net/u011316258/article/details/50450079
python解决文本乱码问题及文本二进制读取后的处理
吲哚乙酸
当文本中含有很多各种各样的字符时,此时读取文件如果还用
fr1 = open("filename","r")
的r模式,遇到ascii码表识别不了的会报错,如:UnicodeEncodeError: ‘gbk’ codec can’t encode character
此时可以用二进制读取文件换成
fr1 = open("filename","rb")
二进制一般都可以顺利的读取,
读取后
r1 = fr1.readline()
是二进制制类型的b’。。。’的,无法对此解析,
所以可用decode( )函数来解码,
r1_to_str = r1.decode('gbk')
或者,gb18030,utf-8,这时就可以解析了
2. 如果这时,不论是,gbk还是gb18030都解析不了的时候,
还是会报错UnicodeEncodeError: ‘gbk’ codec can’t encode character ,
而这时候字符对文本分析可能又没有什么用的时候,我们可以忽略该字符,
可用
r1_to_str = r1.decode('gbk','ignore')
或者’ignore’换成’replace’
便可以将文本转化成字符串了。
————————————————
版权声明:本文为CSDN博主「吲哚乙酸」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/u011316258/article/details/50450079
最新文章
- node基础06:回调函数
- restClient访问SSL
- IOS 改变导航栏返回按钮的标题
- 单节点伪分布集群(weekend110)的Hive子项目启动顺序
- c++文件流
- 【剑指offer】两个队列实现堆栈
- ASP.NET Web API消息处理管道:Self Host下的消息处理管道[下篇]
- 某次送温暖考试的 c题
- 简单实现SSO
- Linux安装 centos 7 最小化 安装
- 全网最详细的IDEA、Eclipse和MyEclipse之间于Java web项目发布到Tomcat上运行成功的对比事宜【博主强烈推荐】【适合普通的还是Maven方式创建的】(图文详解)
- SpringBoot整合Rabbitmq设置消息请求头
- 【PAT】B1077 互评成绩计算(20 分)
- 吴裕雄 实战PYTHON编程(10)
- Jenkins 学习笔记(一)
- Java XML SAX 解析注意
- Android Viewpager+Fragment实现滑动标签页
- Yii设置Cache缓存的方法
- MySQL中类型后面的数字含义
- Spring Boot框架搭建
热门文章
- Jmeter 定时器之同步定时器(Synchronizing Timer)
- TCS34725 颜色传感器设备驱动程序
- [C#]从两个例子理解async/await
- Lyndon Word 与 Lydon 分解
- nmap脚本详解
- Ubuntu 22.04 运行 Appimage 文件
- day07-Spring管理Bean-IOC-05
- Docker使用阿里云拉取配置源也无法拉取的镜像-github镜像镜像gcr.io
- 案例:用ajax get方法 查询用户列表
- Java 进阶P-8.5+P-8.6