decode用utf-8还是gb2312

字符编码和python使用encode,decode转换utf-8, gbk, gb2312

ASCII码标准ASCII码使用7位二进制数表示大写或小写字母,数字0到9标点符号以及在美式英语中使用的特殊控制字符. 在标准ASCII码中,最高位(b7)用作奇偶校验位,所谓奇偶校验,是指在代码传送过程中用来检验是否出现错误的一种方法,一般分寄校验和偶校验两种.奇校验规定:正确的代码一个字节中1的个数必须是奇数,若非奇数,则在最高位b7添1:偶校验规定:正确的代码一个字节中1的个数必须是偶数,若非偶数,则在最高位b7添1. 后128个称为扩展ASCII码.许多基于x86的系统都支持使用扩展(

iconv将文件编码从gb2312 转换为utf-8

iconv命令用于转换指定文件的编码,默认输出到标准输出设备,亦可指定输出文件. 用法: iconv [选项...] [文件...] 有如下选项可用: 输入/输出格式规范:-f, --from-code=名称原始文本编码-t, --to-code=名称输出编码信息:-l, --list 列举所有已知的字符集输出控制:-c 从输出中忽略无效的字符-o, --output=FILE 输出文件-s, --silent 关闭警告--verbose 打印进度信息 -?, --help 给出该系统求

python基础整理笔记（一）

一. 编码 1. 在python2里,加载py文件会对字符进行编码,需要在文件头上的注释里注明编码类型(不加则默认是ascII). # -*- coding: utf-8 -*- print 'hello world' 2. str类型也是经过编码的有各种格式,和unicode字符串之间需要通过decode和encode互相转换.使用示例如下: a = '中文' b = a.decode('utfi-8') c = b.encode('gb2312') 3. 在python3中默认直接使用uni

理解perl的编码转换——utf8以及乱码

工作需要,闲暇之余,仔细研究了一下脚本乱码的问题 1. vim新建的文件 1)在linux命令行 vim命令建立的文件,如果内容中不出现中文,默认是ASCII.那么用notepad++打开的时候,就是“以ASC格式编码”.如下面的: 99.txt2) 如果vim在建立文件的时候,故意在文件中插入中文(我的secureCRT是utf8的),此时文件内容不会乱码,而且vim保存文件后,再用vim打开也会看到中文,没有乱码.我猜测应该是Linux碰到中文,自动就转换成文档应该用utf8而不是asc保存

Android - 服务器json数据交互.

一,服务器端服务器端使用的是Servlet,封装json对象使用的 'json-lib-2.2.2-jdk15.jar,ezmorph-1.0.4.jar,commons-logging-1.1.jar,commons-lang-2.4.jar,commons-collections-3.2.jar,commons-beanutils-1.7.0.jar' 6个jar包.可在 json封装的jar包中下载,我也不懂最近什么情况,使用Firefox总是很难下载csdn资源,可以使用ie. 1.首

Android - 向服务器发送数据(GET).

在此,使用HTTP协议,通过GET请求,向服务器发送请求,这种方式适合于数据量小,数据安全性要求不高的情况下. 一,服务器端,使用Servlet. 在服务器端,定义一个HttpServlet的子类,以及一个Filter的子类(用于统一编码,防止出现乱码). package spt.servlet; import java.io.IOException; import javax.servlet.ServletException; import javax.servlet.annotation.W

php urlencode()函数URL编码转换实例解析

URLEncode:是对网页url所包含中文字符的一种编码转化方式,URLEncode有两种常见方式,一种是基于GB2312的 Encode(Baidu.Yisou等搜索引擎使用),另一种是基于UTF-8的Encode(Google.Yahoo等使用).下面来看两种方式的 Encode与Decode的区别: 中文 -> GB2312的Encode -> %D6%D0%CE%C4 中文 -> UTF-8的Encode -> %E4%B8%AD%E6%96%87 Html网页中的URL

使用JS开发桌面端应用程序NW.js-3-开发问题小记

前言因为我们的项目是2C的,而XP系统是最大的用户量占比,所以只能使用nw开发而不能用Electron,本文谨记开发nw过程中遇到的各种问题以及解决方案. nw.Window.open打开新窗口不能设定指定位置问题描述: nw.Window.open打开新窗口API中的参数option中position字段只能指定为center或mouse.如字面含义:center为屏幕正中央,mouse为鼠标当前位置. 几乎可以推测,nw的鼠标右键菜单应该也是使用此接口,明显是为了弹出右键菜单用的,除此之

UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 46:illegal multibyte sequence

一. 最近使用python写入文件时,出现了如下的错误: 但是content的内容是unicode编码,不知道怎么和gbk扯上了关系,对content使用encode()和decode(),用gbk,utf-8,gb2312各种编码解码都没有效果: 在网上查找资料,看到一篇文章关于这个的说法:http://blog.csdn.net/xiaoyi_zhang/article/details/51675099 结论是: 1.'gbk' codec can't encode character :说

Python写爬虫爬妹子

最近学完Python,写了几个爬虫练练手,网上的教程有很多,但是有的已经不能爬了,主要是网站经常改,可是爬虫还是有通用的思路的,即下载数据.解析数据.保存数据.下面一一来讲. 1.下载数据首先打开要爬的网站,分析URL,每打开一个网页看URL有什么变化,有可能带上上个网页的某个数据,例如xxID之类,那么我们就需要在上一个页面分析HTML,找到对应的数据.如果网页源码找不到,可能是ajax异步加载,去xhr里去找. 有的网站做了反爬的处理,可以添加User-Agent :判断浏览器 s

Python操作Excel, 开发和调用接口，发送邮件

笔记: 上周回顾: 模块: 导入模块的顺序 lyl.py # def hhh(): pass name = 'lyl' a.py import lyl import sys from lyl import hhh sys.path lyl.hhh() hhh() 导入模块的实质: xxx redis: r = redis.Redis(host,port,password,db=1,decode_responses=True) 数据库内存每秒支持10W次读写 r.get('xxx') b'xx

node爬取html乱码

var http = require('http'), iconv = require('iconv-lite'); http.get("http://website.com/", function(res) { var body = ''; res.on('data', function(chunk) { body += chunk; }); res.on('end', function() { var decodedBody = iconv.decode(body, 'win125

Python_oldboy_自动化运维之路（四）

本节内容集合字符编码与转码函数语法及基本特性函数参数与局部变量返回值和嵌套函数递归匿名函数高阶函数 1.集合集合是一个无序的,不重复的数据组合,它的主要作用如下: 去重,把一个列表变成集合,就自动去重了关系测试,测试两组数据之前的交集.差集.并集等关系 # -*- coding: UTF-8 -*- #blog:http://www.cnblogs.com/linux-chenyang/ a = {2,3,4,5,6} b = {1,3,5,8,9} print(a) pri

使用chardet判断编码方式

1. chardet是什么 chardet是python中比较常用的一个编码方式检测库,需要注意的是它只检测并返回检测结果,并不负责对原数据做什么处理. 可以使用PIP命令安装: pip install chardet 2. 如何使用 2.1 API简介一般都是调用chardet.detect传入一个字节数组,返回一个字典,此字典中存放分析的结果,一个可能的分析结果字典: { 'encoding': 'ISO-8859-1', 'confidence': 0.44923076923076927

Python判断字符串编码以及编码的转换

转自:http://www.cnblogs.com/zhanhg/p/4392089.html Python判断字符串编码以及编码的转换判断字符串编码: 使用 chardet 可以很方便的实现字符串/文件的编码检测.尤其是中文网页,有的页面使用GBK/GB2312,有的使用UTF8,如果你需要去爬一些页面,知道网页编码很重要: #!/usr/bin/env python # -*- coding:utf-8 -*- import urllib, chardet if __name__ == '

xml格式发送

1. namespace xml格式发送 { /// <summary> /// 实体转Xml,Xml转实体类 /// </summary> /// <typeparam name="T"></typeparam> public class XmlManage<T> where T : new() { /// <summary> /// 对象实例转成xml /// </summary> /// <

使用nodejs+http(s)+events+cheerio+iconv-lite爬取2717网站图片数据到本地文件夹

源代码如下: //(node:9240) Warning: Setting the NODE_TLS_REJECT_UNAUTHORIZED environment variable to '0' makes TLS connections and HTTPS requests insecure by disabling certificate verification. //解决 javascript – Node.js请求CERT_HAS_EXPIRED问题,下面这句置首 // proc

WebServer_简单例子

#-*-coding:utf-8-*- importwebimportjson urls=("/.*","index")app=web.application(urls,globals()) classindex:"""Server:Apache-Coyote/1.1Pragram:no-cacheCache-Control:no-cache,no-store,max-age=0Expires:Thu,01Jan197000:00:00

buu学习记录（上）

前言:菜鸡误入buu,差点被打吐.不过学到了好多东西. 题目名称: (1)随便注 (2)高明的黑客 (3)CheckIn (4)Hack World (5)SSRF Me (6)piapiapia (7)Easy Java (8)Dropbox (9)Pythonginx (10)ikun (11)Online Tool (12)Web1 (13)Ping Ping Ping (14)shrine (15)easy_web (16)Love Math 题目: 随便注涉及知识点: 堆叠注入解析

JAVA 调用第三方短信平台接口发送短信

做了几个调用三方短信平台发送短信的例子,大部分需要携带参数,向指定URL发送请求回顾对接第一个平台时痛苦的乱码经历,这里放一份代码,算是个模版,再用到的时候过来copy一下就OK. 在进入主题之前,考虑一个编码的问题: 1.unicode,utf8,gbk,gb2312之类的指的到底是什么?为什么需要它们? 字符编码中ASCII.Unicode和UTF-8的区别 - 风行风中 - 博客园 (cnblogs.com) GB2312.GBK.GB18030 这几种字符集的主要区别是什么?

巴特西