使用 chardet 可以很方便的实现字符串/文件的编码检测。尤其是中文网页,有的页面使用GBK/GB2312,有的使用UTF8,如果你需要去爬一些页面,知道网页编码很重要的,虽然HTML页面有charset标签,但是有些时候是不对的。那么chardet就能帮我们大忙了。

chardet的安装

  pip install chardet

chardet实例

>>> import urllib
>>> rawdata = urllib.urlopen('http://www.google.cn/').read()
>>> import chardet
>>> chardet.detect(rawdata)
{'confidence': 0.98999999999999999, 'encoding': 'GB2312'}
>>>

chardet可以直接用detect函数来检测所给字符的编码。函数返回值为字典,有2个元数,一个是检测的可信度,另外一个就是检测到的编码

chardet实例2

import requests
import chardet response = requests.get(“http://www.baidu.com”)
encode = chardet.detect(response.content) #response.content返回的是bytes型的数据, 如获取图片、文件
print(encode)
{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''} 
response.encoding = encode["encoding"]
print(response.text) #response.text返回的是Unicode型的数据。 如获取文本

最新文章

  1. 黄聪:CamtasiaStudio如何导出视频上传优酷实现高清
  2. Hive删除数据库
  3. phpcms不显示验证码
  4. HTTP基础10--web(2)
  5. handler的理解笔记
  6. php mcrypt 完全安装
  7. android Material Design:主题
  8. Java反射机制(转载)
  9. Android发送通知栏通知
  10. java 空指针异常造成的原因有哪些
  11. OpenXml读取word内容(三)
  12. angular4 数据绑定
  13. springBoot多数据源(不同类型数据库)项目
  14. 如何加速GitHub访问速度
  15. OpenGL坐标系的理解
  16. PS制作动感酷炫水人街舞照
  17. Django REST Framework API Guide 01
  18. [JSTL - fmt] fmt标签格式化日期
  19. vs2017 C4996 错误
  20. unity引用查找插件-ReferenceFinder

热门文章

  1. php中处理汉字字符串长度:strlen和mb_strlen
  2. 用Jquery选择器计算table中的某一列某一行的合计
  3. 3、electron打包生成exe文件
  4. 杂项-PIN:百科
  5. Microsoft:Team Foundation Server 20XX Release Notes
  6. WPF DevExpress Chart控件 界面绑定数据源,不通过C#代码进行绑定
  7. 程序的内存分布 - 以 Linux 为例,基于 C 语言分析
  8. struts2 2.5.16 通配符方式调用action中的方法报404
  9. tensorflow学习之tf.placeholder
  10. 用seborn的函数distplot(), jointplot(), pairplt()对数据的单变量分析绘图