Python chardet字符编码的判断
2024-08-30 11:14:46
使用 chardet 可以很方便的实现字符串/文件的编码检测。尤其是中文网页,有的页面使用GBK/GB2312,有的使用UTF8,如果你需要去爬一些页面,知道网页编码很重要的,虽然HTML页面有charset标签,但是有些时候是不对的。那么chardet就能帮我们大忙了。
chardet的安装
pip install chardet
chardet实例
>>> import urllib
>>> rawdata = urllib.urlopen('http://www.google.cn/').read()
>>> import chardet
>>> chardet.detect(rawdata)
{'confidence': 0.98999999999999999, 'encoding': 'GB2312'}
>>>
chardet可以直接用detect函数来检测所给字符的编码。函数返回值为字典,有2个元数,一个是检测的可信度,另外一个就是检测到的编码
chardet实例2
import requests
import chardet response = requests.get(“http://www.baidu.com”)
encode = chardet.detect(response.content) #response.content返回的是bytes型的数据, 如获取图片、文件
print(encode)
{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}
response.encoding = encode["encoding"]
print(response.text) #response.text返回的是Unicode型的数据。 如获取文本
最新文章
- 黄聪:CamtasiaStudio如何导出视频上传优酷实现高清
- Hive删除数据库
- phpcms不显示验证码
- HTTP基础10--web(2)
- handler的理解笔记
- php mcrypt 完全安装
- android Material Design:主题
- Java反射机制(转载)
- Android发送通知栏通知
- java 空指针异常造成的原因有哪些
- OpenXml读取word内容(三)
- angular4 数据绑定
- springBoot多数据源(不同类型数据库)项目
- 如何加速GitHub访问速度
- OpenGL坐标系的理解
- PS制作动感酷炫水人街舞照
- Django REST Framework API Guide 01
- [JSTL - fmt] fmt标签格式化日期
- vs2017 C4996 错误
- unity引用查找插件-ReferenceFinder
热门文章
- php中处理汉字字符串长度:strlen和mb_strlen
- 用Jquery选择器计算table中的某一列某一行的合计
- 3、electron打包生成exe文件
- 杂项-PIN:百科
- Microsoft:Team Foundation Server 20XX Release Notes
- WPF DevExpress Chart控件 界面绑定数据源,不通过C#代码进行绑定
- 程序的内存分布 - 以 Linux 为例,基于 C 语言分析
- struts2 2.5.16 通配符方式调用action中的方法报404
- tensorflow学习之tf.placeholder
- 用seborn的函数distplot(), jointplot(), pairplt()对数据的单变量分析绘图