python开源项目Scrapy抓取文件乱码解决
2024-08-28 15:53:03
scrapy进行页面抓去的时候,保存的文件出现乱码,经过分析是编码的原因,只需要把编码转换为utf-8即可,代码片段
......
import chardet
......
content_type = chardet.detect(html_content)
#print(content_type['encoding'])
if
content_type['encoding'] != "UTF-8":
html_content =
html_content.decode(content_type['encoding'])
html_content = html_content.encode("utf-8")
open(filename,"wb").write(html_content)
content_type = chardet.detect(html_content)
#print(content_type['encoding'])
if
content_type['encoding'] != "UTF-8":
html_content =
html_content.decode(content_type['encoding'])
html_content = html_content.encode("utf-8")
open(filename,"wb").write(html_content)
....
这样保存的文件就是中文了。
步骤:
先把gb2312的编码转换为unicode编码
然后在把unicode编码转换为utf-8.
最新文章
- 接口测试第三课(HTTP协议简介) -- 转载
- CoCreateInstance调用返回代码0x80040154的一种解决方法
- 判断网络是否连接 和 判断GPS是否连接
- 重识JavaScript 之 JavaScript的组成
- 向hive上传数据时,中文乱码
- Chart系列(二):数据绑定
- angularJS之$apply()方法
- Redis 安装与配置
- Android Studio升级后projectBuild failed.
- proxy代理类
- 一条sql,有分页,表合并查询,多表连接,用于oracle数据库
- kafka-manager安装
- HDU OJ 5326 Work( 2015多校联合训练第3场) 并查集
- linux下安装oracle11g 64位最简客户端(转)
- 关于js对象添加属性
- DevExpress中GridControl的使用笔记
- Ubuntu 部署 nginx
- MySQL 常用命令行
- python中的BaseManager通信(一)文件三分
- import as from import 区别