scrapy进行页面抓去的时候,保存的文件出现乱码,经过分析是编码的原因,只需要把编码转换为utf-8即可,代码片段

......
import chardet
......

 
     
content_type = chardet.detect(html_content)
 
     
#print(content_type['encoding'])
 
      if
content_type['encoding'] != "UTF-8":
 
     
    html_content =
html_content.decode(content_type['encoding'])
 
     
html_content = html_content.encode("utf-8")
 
     
open(filename,"wb").write(html_content)
....
这样保存的文件就是中文了。
步骤:
先把gb2312的编码转换为unicode编码
然后在把unicode编码转换为utf-8.

最新文章

  1. 接口测试第三课(HTTP协议简介) -- 转载
  2. CoCreateInstance调用返回代码0x80040154的一种解决方法
  3. 判断网络是否连接 和 判断GPS是否连接
  4. 重识JavaScript 之 JavaScript的组成
  5. 向hive上传数据时,中文乱码
  6. Chart系列(二):数据绑定
  7. angularJS之$apply()方法
  8. Redis 安装与配置
  9. Android Studio升级后projectBuild failed.
  10. proxy代理类
  11. 一条sql,有分页,表合并查询,多表连接,用于oracle数据库
  12. kafka-manager安装
  13. HDU OJ 5326 Work( 2015多校联合训练第3场) 并查集
  14. linux下安装oracle11g 64位最简客户端(转)
  15. 关于js对象添加属性
  16. DevExpress中GridControl的使用笔记
  17. Ubuntu 部署 nginx
  18. MySQL 常用命令行
  19. python中的BaseManager通信(一)文件三分
  20. import as from import 区别

热门文章

  1. CnetOS7使用yum方式安装nginx
  2. Git之安装管理
  3. 常用ES6语法
  4. fortran语法笔记
  5. service fabric docker 安装
  6. webpack extract-text-webpack-plugin
  7. Cascalog了解
  8. win10安装.net3.5 报错解决
  9. Wordpress网站添加七牛云cdn
  10. oracle 的一些基础查询